데이터 분석이 다양하게 사용되면서, 통계적 기법을 사용한 데이터 분석 모형을 만드는 일 역시 늘어나고 있다. 더불어 다양한 데이터 마이닝 기법이 들어오면서, 다이나믹하고 어려운 기법들이 왕왕 사용되는 것을 쉽게 볼 수 있다. 물론 새로운 기법들은 굉장히 신기하고 좋고, 잘 맞아 떨어지면 그렇게 좋을 수는 없겠으나, 간혹 보다 보면 ‘새로 나온 알고리즘’이란 이유로, 혹은 ‘있어보인다’는 이유로 필요없는 데까지 괜히 많이 사용되고, 쉬운 모델이라는 이유로 천대받는(?) 것을 보면 불편한 기분이 없지 않다.
물론 취향은 존중해야겠지만 자고로 통계 모형은 오캄의 면도날(Occam’s Razor, principle of parsimony) 이론이 기본적으로 적용되는 분야다. 통계 모형은 주어진 데이터를 통해서 ‘어떤 현상에 대해서 설명하기’위해 만들어지는 목적이 대부분이다. 이 때 ‘어떤 것을 설명하는 데에 있어서 불필요하게 복잡한 가정을 세워서는 안된다’ 라는 것이다. 특히 무언가를 설명하기 위해서 꼭 필요하지 않은 경우, 없는 것이 있다는 가정을 깔고 들어가면 곤란하다.
물론 아인슈타인은 오캄의 면도날 이론에 추가하여 ‘필요 이상으로 단순화해서는 안된다’라는 말을 추가했다. 그리고 이 말 역시 통계 모델링에 적합하다. 어쨌든 실제로 ‘필요’에 의해서 만드는 것이기 때문에, 필요한 요소는 갖추되, 불필요한 것을 붙이지 않는 형태의 간결함을 갖추는 것을 지향하는 게 좋다는 뜻이지, 변수 간의 관계가 충분히 고려되고, 적절한 변수들과 상호작용 등 까지 간단하게 하자고 다 빼자는 것은 아니다.
그럼 여기서, 적당히 필요한 것만 들어간 간결한 통계 모형이라는 건 어떤 것인지 살펴보자. ‘간결한 통계 모형’이라는 이름답게 별 것 없다.
- 가능한 적은 수의 모수를 가질 것.
- 비선형 보다는 선형 모형을 만들 것.
- 가정은 최대한 적은 수로 할 것.
- 최소 적합 모형이 될 때까지 축소하고 가지치기를 할 것.
- 설명은 최대한 간단하게 나오게 할 것.
모형은 간결할 수록 좋다. 유의미하게 상황 설명을 할 수 있고, 활용 가능하다는 전제 하에서 말이다. 고려해야 할 것이 많아지고 복잡해지면 사용하기도 힘들고, 실제로 조금의 변동이 생겼을 때 모델에 반영해야 할 것도 많아지고, 정확도도 떨어지게 된다. 모델을 괜히 복잡하게, 어려운 것을 들이대려고 하는 것보다 일단 다양한 통계 수치 등으로 데이터에 대한 이해를 착실히 하고, 간단한 모델을 만들고, 이 모델의 동작 여부를 체킹하면서 사용하면 세상의 데이터들을 다루는 것은 의외로 쉬울 지도 모른다.
(예고: 그런 의미에서 다음에는 쉽고 간단한 모델 체킹에 대해서 다뤄 보도록 하겠다.)