Home 좀비 통계 서바이벌 가이드
Post
Cancel

좀비 통계 서바이벌 가이드

‘좀비 통계(Zombie stat)’라는 말이 있다. 어디선가 나왔다고 전해지는 수치가 끝없이 이어지면서 ‘사실’로 굳어지며 여기저기서 사용되는 현상이다. 보통 사람들이 필요로 하거나, 고정관념을 더욱 견고하게 만들어주는 용도로 사용된다. 이런 말에 ‘근거’가 되는 통계수치가 붙고 수치가 추가되면 그 말이 사람들의 머릿속에 더욱 깊이 박히게 되고, 그 말이 근거가 없다고 아무리 설명해도 잠시 주춤하는 듯 하다가 또 어느 때에 시점과 상관없이 망령처럼 되살아나서, 그 현상을 바라보는 사람들의 뇌를 좀먹는다. 그리고 이 것은 ‘통계’라며 ‘사실’이라고 이야기한다. 그 통계가 이 시점에서는 이미 죽은 존재인 것도 깨닫지 못한다. 아니, 특정 시점에서 죽은 통계면 오히려 다행이다. 요즘은 사설 위키같은 커뮤니티나 SNS같은 데에서 누군가가 비유로 사용하거나, 출처가 알 수 없는 말도 ‘팩트’라는 이름으로 여기저기에 인용된다. ‘아인슈타인이 사람은 평생 두뇌의 10%만 사용한다고 했다’(1)같이 사실이 아닌 출처도 숫자와 출처의 무게로 지금까지 도시 전설이 되어가고 있지 않은가. 여기서의 숫자가 통계 수치가 되면 좀비 통계가 된다.

통계란 기본적으로 어떤 상황을 숫자로 요약한 값이다. ‘상황’이란 어떤 시공간을 말하고, 통계는 결국 특정 시공간의 스냅샷을 떠서 수치화된 지식이므로 제약 조건과 함께 하는 숫자다. 그 시공간을 작게 잡으면 많은 경우를 설명할 수 없고 시공간을 넓게 잡으면 각각의 상황에 대한 설명력이 부족해진다. 하지만 사람들은 이 것을 망각하고 숫자만을 기억한다. 그 많은 숫자 중에서도 기억하기 쉽고 사람들이 짚어주는 것이 눈에 잘 들어온다.

만사에 피곤한 현대인은 많은 것을 기억하기를 원하지 않는다. 복잡한 것을 읽는 것을 원하지 않는다. 간단하면서도 오래오래 통용되는 진리를 찾고, 140자 이내로 만사가 설명되는 ‘사이다’ 문장만을 읽는다. 요약된 내용이 마음에 안 드는 보고서는 대충 읽고 넘겨버린다. 클릭 수를 늘려서 광고를 실어야 하는 언론은 원하는 논조에 숫자를 끼워서 제목을 짓는다. 조건은 기사에 간단히 실어두면 일단 자신들의 책임은 아니다. 그리고 피곤한 사람들은 그 제목만을 읽고 넘긴다. 열에 하나 본문을 읽는 사람이 있을 것이고, 그 중에서 또 열에 하나가 숫자가 만들어진 조건을 확인할 것이다. (그리고 여기서의 ‘열에 하나’는 10%가 아닌 일부라는 뜻의 관용어구임을 밝힌다. 아마도 읽는 분들은 이해하실 것이라 믿어 의심치 않으나 혹시나 여기서도 좀비 통계가 만들어질까봐 걱정을 해 보았다.) 하지만 남은 사람들은 제목만을 보고, 최근의 데이터로 만들어진 정리 내용 보다는 본인의 머릿 속에서 떠돌아다니는 좀비 통계와 직관만을 머릿속에 남겨두고 일을 결정하고, ‘어디에서 봤는데 말이지’라고 하면서 다른 사람들과 이야기를 하고, 그렇게 확산되고, 또 하나의 좀비가 그렇게 탄생하고 퍼져나갈 것이다. 좀비 바이러스의 전염력은 강하다. 사람들이 흥미있어 할 것이 아니라면 좀비 통계로 만들어지지도 않았다.

그런 달콤한 숫자는 대개 고정관념을 다시금 확인해 주는 것들이다. 간혹 고정관념을 놀랍게 뒤집어주는 숫자도 있지만, 그런 것 중에서는 본인의 입맛에 맞는 것을 취한다. 본인이 알고 있던 것이나, 입맛에 맞지 않는 것을 새로이 받아들이는 것은 달콤하지 않고 맛이 쓰다. 고정관념이 뒤집히는데다 본인에게 유리하지 않은 이야기는 이해하기 전에 감정적인 거부감이 생겨서, 이를 바로 받아들이는 것보다 혹시나 빠져나갈 구멍이 있는지 출처와 예외 사항을 찾아보는 행동이 앞선다. 그리고는 혹여 어쩔 수 없이 열심히 씹어서 맛을 희석시키고 억지로 삼켜 이해했다손 치더라도 금방 잊어버린다. 희석된 맛은 오래 기억되지 않는다.

많은 곳에서 좀비가 넘쳐나고, 데이터가 자리잡으면서 무수한 숫자들이 데이터라는 이름을 달고 진실인척 하면서 데이터에마저 좀비가 넘쳐나는 사회가 되었다. 성수를 뿌린다손 쳐도 성수가 제대로 되었는 지도 알 수 없고, 바이러스만 끊임없이 퍼져서 이제는 어디까지가 좀비이고 어디까지가 제대로 된 사실인지 알 수 없는 통계 수치가 넘쳐난다. 그래도 우리는 여기에서 어떻게든 정신을 차리고 살아야 한다. 물론 누구나 어느 정도 좀비 통계에 감염되어 있겠지만, 우리가 백신을 만들 수는 없지만, 그래도 소금이라도 입에 물고 버텨야 한다. 우리는 늘 그렇듯 자신의 자리에서 자신이 하는 일에서 조금 더 주의를 기울여서 할 수 있는 일을 해야 한다.

특히 데이터를 만지는 사람들의 역할이 중요하다. 통계로 이루어진 결과는 다수의 이야기가 많다. 주제를 정하고 데이터를 수집하는 주체는 본인이 원하는 목적의 데이터를 수집하고 가공해서 통계 결과를 만들어낸다. 그 과정에서 결과를 볼 대상이 원하는 주제를 고르고, 그 주제에 대한 데이터를 만드는 과정에서 일단 해당 주체가 생각하는 ‘다수’의 입맛에 어느 정도 맞는 데이터를 만들게 된다. 그 주체의 뇌가 어느 정도 좀비 통계에 잠식당해 있다면 이런 현상은 더욱 심해진다. 그리고 이렇게 모아진 데이터를 사용해서 통계를 사용해서 크게 뭉뚱그리는 과정에서, 그나마 남아있던 소수의 데이터는 더욱 줄어든다. 그리고 이 통계로 이야기를 만드는 과정에서, 작게 줄어든 이야기는 잡음이 되어 사라진다. 특히 좀비 통계에 잠식당한 뇌에서는 이런 이야기는 눈에 들어오지도 않을 것이다.

통계로 데이터를 예쁘게 추상화할 때도, 최대한 고정관념에 덜 사로잡히고 중립적인 위치를 유지하기 위해 노력해야 한다. 물론 어느 정도의 통찰을 활용해야 데이터의 패턴도 보이고, 중요한 내용도 찾을 수 있을 것이다. 하지만 그 ‘중요한 내용’이라는 것이, 과연 어떤 근거에서 ‘중요하다’고 생각했는 지를 한 번 되짚어 보아야 한다. ‘재미있어서’, 데이터를 볼 사람이 ‘좋아할 것 같아서’라면 그 기반에는 고정관념, 다수의 사고가 자리잡고 있는 것은 아닌지를 되돌아보자. 인구통계학 정보에 너무 매몰되지 말고, 가능한 한 행동 기반으로 데이터를 사용해야 한다. ‘30-40대 남성’보다 ‘SF소설을 많이 구매한 회원’에게 SF소설 신간을 추천하는 것이 더 자연스럽겠지만, 많은 사람들이 ‘30-40대 남성이 SF를 많이 읽을테니까’라고 이야기하며 이 사람들을 대상으로 SF 신간 광고를 타겟팅하기를 원하며 굳이 얻기 힘든 인구통계학 데이터를 어떻게 얻을 수 있을까 하고 고민한다.(2)

특정 대상에 대한 통계가 아니라면, 많은 경우 소수의 데이터를 따로 고려하지 않는다. 사람의 사진을 대충 수집하면 백인 남성이 상당수일 것이고, 흑인 여성의 데이터는 비율상 훨씬 적을 것이다. 그리고 이렇게 적게 수집된 데이터의 부류는 확률이나 통계에서는 더욱 제외될 것이다. 확률형 알고리즘을 사용하는 머신러닝 모델로 자동 처리되는 데이터는 더욱 그럴 것이다. 그래서 많은 핸드폰의 얼굴 인식에서 여성과 흑인의 인식률이 낮았고, 자동 의료 진단 시스템에서 아시안의 질병 예측 정확도가 낮았다.(3) 기술과 데이터는 만드는 사람이 생각하는 다수 중심으로 돌아가게 되어 있다. 그래서 데이터를 만들고 활용하는 사람은 더욱 다수와 고정관념에 매몰되지 않아야 한다. 혹여 그렇게 데이터가 손에 들어와도, 가능한 한 데이터의 상태를 파악하고, 중립적으로 사용할 수 있도록 노력해야 한다. 물론 데이터를 수집할 때 더 노력을 한다거나, 이를 층화표집한다거나, 데이터의 가중치를 다르게 사용한다거나 하는 몇 가지 추가적인 처리를 해야 데이터의 불균형을 그나마 보완할 수 있고, 그렇다고 항상 잘 되라는 보장도 없고 번거롭기만 할 것이다. ‘빅데이터’라는 미명하에 있는 데이터를 무조건적으로 다 사용해서 모델링해서 좋은 성능을 내고 싶은 마음도 있을 것이다. 그래봐야 다수의 데이터에 오버피팅(과적합)되기밖에 더 하겠는가. 그리고 그 결론은 장기적으로는 그다지 재미없고 뻔한, 가끔은 비판도 받을 수 있는 결과밖에 낳지 못할 것이다.

그냥 무심코 만들어진 데이터와 통계 결과를 보는 사람도, 데이터와 통계를 접할 때, 본인의 인지를 넓히려고 노력해야 할 것이다. 물론 이런 과정의 맛은 쓰고, 별 효과도 잘 모를 것이다. 하지만 그냥 보고 넘어갈 것이면 모르겠지만, 웬지 기억을 하거나 주변에 이야기를 할 정도라거나 일을 결정하게 되는, 어느 정도 영향을 미치는 사안에 대한 통계는 가능한 한 출처와 조사 방법을 확인하자. 어떤 신문기사는 이에 대해서 생략하기도 하지만 그래도 이 정도는 표기해주는 경우가 많다. ‘A에 대해 70%가 찬성해’라는 헤드라인을 아침에 읽고 주변 사람들에게 열심히 말하고 다녔는데, 알고 보니 ‘100명 중 응답한 사람은 10명이고 그 중 7명이 긍정적 반응이었고, 해당 사안에 대해 70%의 사람이 긍정적인 반응을 보였다’ 라는 통계에서 나온 이야기라는 것을 알고 나면 허무하지 않을까. 그리고 이런 것을 계속 보다 보면, 나중에는 어디에서 조사했는지만 보아도 대강 이 것이 신뢰할 만한 이야기인지 아닌 지 어느 정도 가늠할 수도 있게 된다. 그리고 기존에 알고 있던 것과는 다른, 조금은 재미있는 이야기가 눈에 띌 지도 모른다. 혹은 기묘하게 사람들의 입맛에 맞게 만들어진 이야기가, 수치를 조금만 자세히 보고 문장을 비틀어보면 완전히 다른 이야기였다는 것을 알게 될런지도 모른다. 어쩔 수 없이 기존의 사고와 안 맞는 통계 결과를 가끔 문장을 묘하게 왜곡해서 사람들의 눈에 잘 들어오는 형태로 바꿔버리는 경우도 은근히 산재해 있기 때문이다.

많은 이야기에 ‘숫자’가 들어가면 객관적인 것마냥 포장되고 읽는 사람이나 쓰는 사람이나 중립적으로 판단하고 있다는 지적 허영심에 사로잡히게 되지만 무비판적으로 읽는 숫자는 이미 알고 있는 사고방식과 편향이 열어준 통로로 들어오는 바이러스와 같다. ‘팩트’와 ‘사이다’는 자극적이고 시원하며 소화를 돕지만 다량으로 섭취하면 위장만 상하고, 이런 것을 사람들이 많이 섭취할 수록 별로 세상을 보고 현실을 받아들이는데 도움이 되지 않는 통계만 잔뜩 생산되고, 그 사이사이에는 달콤한 좀비 통계들이 넘실댈 것이다. 그리고 결국 그런 좀비 통계들은 다수 편향적 의사 결정들만을 낳을 뿐이다. 물론 다수 편향에 기대어 사는 게 편한 사람들이야 자신의 입맛에 맞는 좀비 통계에 뇌를 절이고 지적 허영에 빠진 채 신선놀음을 하면 되겠지만, 이런 현상이 언제까지 갈 지 모르겠다는 생각을 조금이라도 한다면, 혹은 이런 다수 편향에 조금이라도 불편한 생각이 드는 사람들이라면, 조금만 더 불편한 숫자 읽고 쓰기를 시도해 보는 것도 괜찮을 것이다. 특히 데이터와 통계를 만드는 데 조금이라도 기여하는 사람에게는 이런 조금 더 중립적이고 씁쓸한 자세는 필수적일 것이다.


(1) 아인슈타인이 하지 않았지만 아인슈타인의 명언으로 알려져 있다. (출처: [아인슈타인이 말합니다], 알베르트 아인슈타인·앨리스 칼라프리스 저, 김명남 번역, 에이도스, 2015)

(2) 심지어 이는 알라딘 서점의 통계로 보면 근거 없는 이야기다(https://www.aladin.co.kr/events/wevent.aspx?EventId=207781).

(3) 이 내용은 최근 읽고 있는 [보이지 않는 여자들] (캐럴라인 크리아도 페레스 저, 황가안 번역, 웅진지식하우스, 2020)에서 영향을 받았다.

    This post is licensed under CC BY 4.0 by the author.

    데이터 분석가의 재능과 능력치

    202007~202009 책 리뷰