Home 비즈니스에서의 데이터 오남용에 대한 푸념
Post
Cancel

비즈니스에서의 데이터 오남용에 대한 푸념

나는 ‘데이터 분석’을 나름 n년간 해왔고, 이 내 ‘업’에 대한 프라이드가 꽤 높은 편이다. 그래서 예전부터 내 일이 다른 사람의 ‘수단’이 되는 것이 싫었다. 물론 데이터 분석으로 바로 어떤 서비스를 만든다거나 수익을 낼 수 있는 것도 아니고 있다손 치더라도 내가 그렇게 거물이 되려면 아직도 한참 남은 것을 알고 있기 때문에 어느 정도 포기하면 편해져요 상태기는 했지만. 하지만 데이터 분석의 기원 자체도 다른 의사 결정 ‘수단’이자 ‘검증’용이라는 것을 뻔히 알면서도 나는 여기에 올인하고 있는데 다른 사람들은 제품 기획이나 마케팅 등을 자신들의 주요 업무로 끌고 가면서 데이터 분석을 ‘어설프게’ 수단으로 추구하는 게 영 맘에 안 들었다. 제대로 하면야 얼마나 좋겠냐만 고의로, 혹은 모르고 마구 데이터 분석을 오용 혹은 남용해대는 게 종종 보이니 영 불편할 수밖에 없었다. (그러니까 약은 약사에게 진료는 의사에게 분석은 분석가에게.) 이 바닥에서 일을 하면서, 그리고 ‘빅 데이터’니 ‘데이터 사이언스’니 몇 번을 봐도 오글거리는(…) 버즈워드들이 범람하면서 많은 사람들이 데이터에 관심을 가지고, 이를 자신의 일에 활용하려는 현상을 많이 봐왔다. 물론 이는 굉장히 바람직하긴 하다. 감으로 무수한 일들을 진행하다가 이제는 무언가 논리와 근거를 가지고 일을 진행하려는 것이 옳은 방향이라고도 생각한다. 하지만 이 사람들이 데이터를 ‘어설프게’ ‘자신의 생각에 맞게’ ‘함부로’ ‘아는 척 하며’ 다루는 것을 보고 있노라면 굉장히 짜증이 만개하는 것은 어쩔 수 없는 일이다.

이런 유형들을 돌이켜보면 크게 세 가지로 분류할 수 있다. 첫 번째는 ‘데이터 유리하게 꼬아쓰기’, 두 번째는 ‘가설 검정’. 세 번째는 ‘데이터 분석 가르쳐 주세요. 3-4시간으로 요약해서.’

우선 첫 번째, ‘데이터 유리하게 꼬아 쓰기’는 통계학 및 데이터 분석 분야를 ‘사기 학문’이라고 불리게 한 원형으로, 굉장히 싫어하지만 빈번하게 사용되는 부분이다. 정말이지 이런 행태는 징글징글하게-특히 마케팅이나 성과 분석 하는 곳에서- 봐대서, 이런 분야에서 정말로 데이터 분석이 자연스럽게 행해져야 하고 분석의 효용성을 짧은 시간에 쉽고 간단하게 보여주기 가장 좋은 동네임에도 불구하고 이 쪽에서 일하는 게 영내키지 않는 것이었더랬다. 이 쪽에서 프로젝트 하다가 ‘기껏 하라니까 하기는 하는데, 정말 어디 가서 내가 했다고 말하고 싶지 않은 부끄러운 일을 하면서 시간 보내는 것따위 딱 질색이다’라고 내 밥줄을 걸고 싸우기도 했다. (부끄러워서 어떤 내용이었는지 차마 밝힐 수 없다. 정 궁금하신 분은 제게 오프라인에서 이런 사례들을 물어보세요. 온갖 버라이어티한 이야기들을 들을 수 있습니다…orz) 아예 모르는 사람들이면 말도 안 하는데, 어느 정도 아는 사람들이 어설프게/자기 필요한 내용만 갖다 쓰기/필요한 대로 바꿔 쓰기 등등을 행하는 작태를 보면 정말 화가 안 날래야 안 날 수 없는 것이다. 이렇게 말할 때 무슨 이야기인지 잘 이해가 안 가시는 분은 언론 상의 되도 않는 통계 같은 게 실제로 회사에서도 만연하게 사용된다고 보면 된다. 정말이지, 자기 입맛에 맞는 데이터 수치만 쏙쏙 가져다 쓰고, 반대되는 데이터는 어떻게든 숨기려고 하고, 가져가면 자기네는 이런 거 안 쓴다고 하고, 필요한 대로 통계치를 바꿔대서 시스템마다 집계 수치가 달라지고, 이런저런 예외사항 있다고 해도 말도 안 듣고. 정말 워낙에 면면이 화려하고 경우가 많아서 내 뭐라 할 말이 없다. 이럴 거면 데이터 쓰지 말고 그냥 자신들 생각대로, 믿고 싶은 대로 그냥 진행했으면 좋겠다. 정말 자기네들의 생각을 남들에게 있어보이게 꾸미려고 가져다 쓰는 데이터 분석따위 없느니만 못하다.

두 번째, ‘가설 검정’이라고 하면 ‘왜?’라고 반문할 사람들이 많을 것이다. 가설 검정은 기본적인 통계 프레임 아니냐고. 가설에 대해 통계적으로 유의하면 되는 거 아니냐고. 그렇게 배웠다고 말이다. 맞는 말이다. 피셔님하가 토대를 잡으신 이래 통계학의 기본적인 구조는 영가설을 잡고 이에 반대되는 대립가설을 잡은 후 이를 검증하는 형태니까 말이다. 하지만 여기서 포인트는 이 때의 가설은 ‘실험’이나 ‘연구’에서 통용되는 가설로, 굉장한 주변 요인 통제가 이루어진 ‘실험실’에서 ‘실험’을 굉장히 잘, 상세하게 설계한 후에 ‘가설’을 세워서 검정하는 거지, 이런 요인 통제따위 하나도 안 되는 현실에서 이루어진 결과 및 상황을 가정하고 여기다 데이터를 끼워 맞추는 게 아니란 말이다. 보통 비즈니스 단에서 ‘가설’이라고 하면서 이를 데이터로 검증하겠다고 하는데 대다수의 분들이 말하는 ‘가설’은 가설이 아닌 그냥 자신들 머릿속에서 나온 ‘가정’이다. 실제 세상의 가정하기 힘든 요인들은 전혀 고려하지 않은 채 나온 그냥 ‘상상 속의 가정’ 말이다. 사업이나 서비스에서 세우는 가설이란 것들이 동일한 날에 차에 우유를 붓고 우유에 차를 붓고 같은 사람이 차이를 감지하는 아주 단순한 내용일 리가 없지 않은가. (사실 이 경우에도 시간 차이라든가 차를 두 번 이상 마시면서 혀의 상태가 달라진다든가 하는 정도도 실험 설계에 들어가야 하는 마당에 말이다.) 그래서 어디서 통계에 대해서 대충 듣고 와서 데이터로 가설 검정 하겠다고 자신의 ‘가정’에 데이터를 끼워 맞추다보면 첫 번째의 행태들이 나타나게 되기도 한다. 거기다 이 경우는 대충이나마 어디서 듣고 온 게 있다보니 자신이 데이터와 숫자에 대한 감각이 있다고 더 우기기까지 하는 경우가 있는데 이 쯤 되면 뭐라 말 할 수 상황이 되어버리는 경우가 왕왕 있는 것이었더랬다. 제발 부탁이니 ‘가설 검정’을 현실에도 들이대고 싶으신 분은 ‘실험 설계’ 수업을 듣거나 책이라도 읽고 왔으면 하는 소망이 있다.

세 번째. ‘데이터 마이닝 쉽게 가르쳐주세요’. …물론 데이터를 분석해서 보는 것 자체는 굉장히 바람직하고 모두에게 필요하다고 생각합니다만, 저기요. 마이닝이라뇨. 이건 아냐. 되면 제가 몇 년동안 그 고생하면서 공부하고 일하고 했겠어요. 저 나름 힘들게 여기까지 왔다고요(물론 너가 능력 부족이어서 그래…라면 할 말이 없지만). 이렇게 물어보는 사람들을 보면 요즘 되도 않는 빅데이터 교육이 횡행하는 게 이해가 가기도 한다. 이에 대해서는 이야기하자면 또 포스팅 하나가 나오니 여기까지.

그나마 요즘은 빅데이터와 데이터 사이언스라는 되도 않는 버즈워드 덕분에 데이터 분석이 좀 각광받고 있어서 프리랜서로 있어도 여기저기서 일이 들어와서 편했지만, 그 이전 데이터 분석의 암흑기(…)에는 분석 일 좀 하겠다고 여기저기 들러붙어서 꾸역꾸역 주는 일 안 주는 일 가리지 않고 했어야 했다. 하다 보면 정말 온갖 경우를 다 봤고, 이런 경우는 데이터 분석이 (요즘처럼) 좀 주목을 받게 되면 덜 할 줄 알았다. 하지만 요즘이 되어도 그건 아니더라. 괜히 어설프게 데이터를 자신들의 일에 갖다붙여서 있어보이게 만들려는 사람들이 더 늘다보니 이런 경우 역시 비슷하게 많아지더라. 그래서 최대한 독립적인 데이터 분석을 지향하지만,이게 수익과 연결되게 하려면, 혹은 무언가 서비스와 연결되려면, 혹은 이를 기반으로 무언가를 하려면 분석 자체로만 끝나기는 쉽지 않고, 결국 독립적 데이터 분석만으로 무언가를 할 수 없다는 것은 익히 알고 있다. 그래서 더더욱 어렵다. 사실 분석 자체보다 이런 상황을 풀어가면서 서로서로 좋게, Data Thinking을 하면서 협업하는 게 더 어렵고 중요한 일일 지도 모르겠다고 생각한다.

    This post is licensed under CC BY 4.0 by the author.

    How to measure anything (책)

    DataDay at 판교