Home 인구통계학 데이터 제대로 사용하기
Post
Cancel

인구통계학 데이터 제대로 사용하기

마케팅이나 실제 사용자 접점의 서비스에서는 사용자 구분 시 인구통계학적(연령,성별,지역 등) 구분을 자주 사용한다. 직관적이어서 의사소통에도 유리하고, 구분하기도 편리하며, 결과를 활용하기도 쉽고, 일명 사람들의 ‘가설’을 뒷받침하기 굉장히 유리하며, 인구에 회자되기도 좋다.

하지만 이 데이터를 사용하는 데에는 여러 면에서 주의가 필요하다. 인구통계학적 정보의 가장 낮은 단계는 개인정보 단위로 이루어지기 때문에, 법적 이슈가 발생할 수 있다는 아주 기본적인 이슈 외에도, 데이터 처리 면에서 신경써야 할 부분이 다소 있다.

우선, 인구통계 데이터의 수집 상의 성격 문제가 있다. 데이터는 수집 방법에서 크게 두 가지 방법으로 나뉜다. 직접적 수집과 간접적 수집이다. 직접적 수집 방식은 실제로 일어나는 일을 그대로 기록으로 남기는 식으로, 웹 로그, 시스템 로그 등의 수많은 로그 데이터가 이에 속한다. 간접적 수집은 사람에게서 입력을 받는 식으로, 사실이 사람을 한 번 통과해서 기록되는 방식이다. 사람이 직접 입력하는 개인 정보, 설문 응답 데이터가 이에 속한다. 대부분의 인구통계학 데이터는 회원 가입할 때, 혹은 무언가를 구매할 때 직접 입력하는 방식으로 수집되는 것이 대부분이므로, 이 경우 이런 데이터는 간접적 방식으로 수집되는 데이터라고 봐야 한다.

간접적 수집 데이터는 직접적 수집 데이터보다 아무래도 한 단계를 더 거쳐서 입수되므로, 직접적 수집 데이터에 비해 누락, 오염, 정확도 하락 등의 문제를 안고 갈 수밖에 없다. 그래서 아무래도 이런 데이터는 직접 수집 데이터보다 신뢰도가 낮다는 전제 하에 데이터를 보아야 한다.

그러나 이 와중에 인구통계학-연령, 성별, 지역 등-이라는, 사람들에게 매우 친숙하면서 흥미롭고 무엇보다 직관적이어서 이해하기 쉽고 설명하기 쉽고, 카테고리가 분명하고 숫자도 적어서 활용하기마저 좋은 데이터는 흔히 분류 기준으로 왕왕 사용되고 처리되고 분석되고 회자되고 활용된다. “20대는 30대에 비해 무엇을 더 많이 사는 경향이 있고…” “여성이 남성보다 이탈률이 높으며…” 등등. 그런데 과연 이런 식으로 사용했을 때, 그 결과가 다른 기준으로 활용한 것보다 더 유용했을까? 다른 기준으로 활용한 경우가 그다지 많지 않아서 비교하기 어려울 지도 모르겠다.

또한, 인구통계학적 기준에서의 데이터의 분산이 높거나 치우쳐져 있을 가능성이 있다. 요즘은 사람들이 동일한 연령대, 동일한 성별이라고 동일한 행동 패턴이나 취향을 보이지 않는다. 물론 비슷한 경우도 있겠지만, 그러기에는 이 구분 카테고리가 너무 적어서(남, 여는 인류를 딱 두 기준으로 나누는 것 아닌가) 그 안의 모수가 워낙 크다. 사실 이 쯤 되면 혈액형별로 행동 패턴을 구분한다고 해도 이상할 게 없는 수준이다. 하지만 이제 사람들은 혈액형별로 성격이 동일하지 않다는 것은 알면서, 연령이나 성별마다는 어떤 일정한 패턴이 있기를 바란다. 그리고 데이터를 통해서 무언가 나오면 수긍하고 본다.물론 좋은 결과가 나와서 잘 쓰면 매우 바람직한 일이겠지만, 그 결과의 유의미성은 확인하고 넘어가야 할 것이다. 그리고 인구통계학적 분류로 뭐가 당연히 나올 것이라고 확신하고 진행하는 것은 위험한 일이다.

위메프 연령대별 판매 카테고리

다음 그림은 신문기사에 나온 모 소셜커머스의 연령대별 판매 카테고리(기사)다. 흥미로운 기사로, 사람들은 이걸 보면서 “20대는 치장에 많이 돈을 많이 쓰고 30대부터는 육아에 신경쓰겠지”라고 할 것이다(실제로 기사 제목도 저렇다). 하지만, 이 문장에서는 20대의 1위 카테고리가 2%, 3% 정도밖에 안 된다는 사실은 간과하고 있다. 30대 여자가 화장품을 10% 사더라도 30대 중에서는 2위가 될 것이고, 20대보다 치장에 돈을 많이 쓴 사실은 묻히게 되는 것이다. 이 경우 굳이 복잡하게 분석하지 않더라도 특히 분산이 클 것으로 추정되는 20대의 경우 1위가 어떤 의미가 있는지, 실제로 다른 연령대와 동일한 카테고리를 비교했을 때는 어땠는지 살펴보는 것이 더 이 데이터를 유용하게 활용하는 것이 아닐까.

분명히 인구통계학적 데이터는 가장 거부감도 낮고, 재밌으며, 활용도 높고, 손쉬운 데이터임에는 분명하다. 하지만 그만큼 맹신도가 높고, 오염도도 높으며, 위험도 역시 높다. 손쉬운 데이터라고 하더라도, 이를 사용하는 데에는 생각보다 더 많은 주의가 필요하며, 이를 해석하고 받아들일 때에도 기존보다 2%씩만이라도 더 신경써서 받아들이는 자세를 갖추면 이 좋은 데이터를 보다 효과적으로 사용할 수 있지 않을까 하고 생각해 본다.

    This post is licensed under CC BY 4.0 by the author.

    DataDay at 판교

    간결한 통계 모형