세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (2/3)

이 글은 구글의 Chief Data Scientist인 Cassie Kozyrkov의 글(Part 1, Part 2)을 저자의 허가 하에 번역한 것으로, 번역 본의 약 2/3에 해당하는 내용이다. 그림 및 링크는 모두 저자가 제공한 내용을 그대로 사용하였으며, 본 번역 내용은 저자의 번역 글 블로그에도 게재 예정이다. 이 내용은 세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (1/3)에 이어지는 글이다.

(해당 내용에 들어있는 링크들은 원문의 링크를 사용한 관계로, 영어이니 탐색 시 참고 부탁드립니다.)

넓이 대 깊이

(계속)

통계학자머신 러닝 엔지니어는 시야가 좁고 깊은 사람들이므로(신기하게도 토끼굴 모양과 같다), 그들의 노력에 적합한 문제를 맞춰 주는 것이 매우 중요하다. 만약 당신과 일하는 전문가들이 잘못된 문제를 조심스럽게 풀고 있다면, 당연하게도 데이터 과학에 대해 많이 투자를 한다고 하더라도 성과가 나지 않아 괴로울 것이다. 당신이 좁고 깊은 형태의 전문가를 제대로 사용하려고 한다면, 당신이 가지고 있는 문제가 이들에게 적합한 문제거나 넓고 얕은 접근을 통해 이런 문제를 찾아야 한다.

분석의 강점: 속도

최고의 분석가들은 엄청나게 빠른 코더들로 많은 데이터셋을 빠르게 훑고, 다른 전문가들이 “칠판”에 글을 쓰는 것보다 빠르게 가능한 통찰들을 발견할 수 있다. 그들의 약간 허술한 코딩 스타일은 전통적인 소프트웨어 엔지니어들은 절대 이해하지 못한다…이런 통찰들을 찾아내기 전까지는 말이다.

속도는 가장 큰 미덕이고, 이를 통해 유용할 수도 있는 싹을 미리 잘라내버리지 않을 수 있다. 아름답고 효과적인 그래프는 사람들의 마음에서 정보를 보다 빠르게 끄집어낼 수 있도록 도와주고, 잠재된 통찰력에 쏟을 수 있는 시간을 더 벌어 준다.

통계학자와 ML엔지니어들이 속도를 내지 못하고 있을 때, 분석가는 의사결정자와 다른 데이터 과학 분야 동료들에게 영감의 폭포수를 만들어 준다.

결과: 비즈니스에서 이전에 몰랐던 미지의 세계에 대해 맥을 짚어주고 눈을 뜨게 해 준다. 이들은 의사결정자가 통계학자와 머신 러닝 엔지니어에게 어떤 가치있는 일을 줄 지를 결정하고 수학적인 삽질로 쓸데없는 토끼 굴을 파고 있는 데서 구해줄 수 있는 영감을 만들어준다.

어설픈 허튼 소리인가 근사한 이야기인가?

하지만,” 통계학자가 이의를 제기한다. “대부분의 통찰이라는 것은 쓸데없던데.” 그들의 말에 따르자면 이렇게 탐색한 결과는 잡음만을 반영하고 있다. 그럴 수도 있지만, 여기엔 좀 더 이야기할 것이 있다. 분석가는 데이터 스토리텔러다. 그들의 권한은 흥미로운 사실을 요약하되 통계적 근거 없는 시적 영감을 진지하게 사용하지 않도록 조심하는 것이다.

불행히도 상대적으로 실제 판매자는 분석가 중 매우 적다. 주의하자. 데이터 과학자를 자처하는 데이터 약장사들이 넘쳐난다. 이런 사람들은 허튼 소리를 퍼뜨리지만,이들의 방식인 결정을 “도와주고자” 체계적이지 않은 방식으로 데이터를 뛰어넘어 원하는 대로 불확실성에서 확실성을 만들어버리는 마법 따위는 없다. 당신의 기준 안목이 다소 부족하다면, 아마도 당신은 이런 가짜 약장사를 곁에 두고 당신의 사업의 마케팅 흑마술 부문에 그들을 앉힐 것이다. 개인적으로 그러지 않기를 바란다.

훌륭한 분석가는 그들의 업에 있어서 확고하게 지키는 황금률이 있다. 데이터를 넘어서는 결과를 도출하지 않는다는 것이다.

분석가가 사실을 고수하고(“이게 여기서 말하는 것이다.” 하지만 이 말이 의미하는 것은 뭘까?* “여기서 말하고 있는 것은 이것 뿐이다.”*) 있고 자신들을 너무 심각하게 생각하고 있는 게 아니라면, 그들이 저지를 수 있는 최악의 범죄는 그들이 하는 일이 다른 사람들 시간을 낭비하게 하는 것이다. 황금률만 제대로 지키고 있는 선에서, 좋은 분석가는 보다 부드럽고 포괄적인 말을 사용하며(“결론은” 이라는 말 대신 “이 덕분에 이런 내용을 궁금해 하게 되었습니다”) 리더들이 과도하게 모든 영감에 대해서 가능한 다양한 해석을 하려고 하는 의지를 누그러뜨린다.

가설 검정에는 통계 기술이 필요하지만, 그 가설을 가장 처음 끄집어낼 수 있는 최적의 사람은 분석가다. 예를 들어, 분석가는 “이건 연관관계일 뿐이지만, 이런 관계가 나온 이유는…” 라고 제시하고 그렇게 생각한 이유를 설명할 수 있다.

이는 데이터를 넘어서는 강한 직관력과, 어떤 가설이 통계학자가 공을 들여야 할 정도로 중요한 지를 결정하는 의사 결정자에게 선택지를 제시하는 의사 소통 능력이 필요한 일이다. 분석가가 충분히 성숙한 역량을 가지고 있으면, 그들은 흥미로운 것 뿐이 아닌 중요한 것이 어떤 것인지 판단해서, 의사 결정자가 중매자 역할에서 한 발짝 떨어질 수 있도록 한다.

세 혈통 중, 분석가가 의사 결정의 왕좌의 적자다.

분야별 전문 지식은 데이터에서 흥미로운 패턴을 더 빨리 파악하게 해주므로, 최적의 분석가는 진지하게 도메인에 익숙해지려고 한다. 도메인에 익숙해지지 못하는 것은 경고 신호다. 분석가는 호기심이 많아서 이로 인해 비즈니스 감각을 빨리 기르게 되고, 그들이 도출한 결과를 통해 수많은 가짜 경고들을 의사 결정권자가 신경써야 할, 신경써서 선별된 통찰들로 전환한다.

시간 낭비를 막기 위해, 분석가는 그들이 말하고자 하는 바를 이야기로 만들고 이를 의사 결정권자에게 전달하기 전에 후속 조사를 통해 이 이야기가 이치에 맞는 지를 여러 각도에서 점검한다. 만약 의사 결정권자가 감동적인 이야기를 통해 중요한 결정을 할 위기에 처해 있다면, 통계학자에게 배트맨 신호를 보내서 얼른 와서 (물론 새로운 데이터를 가지고) 의사 결정권자의 생존과 위기 정도를 가정했을 때 이런 행동이 현명한 선택인 지를 확인해 달라고 요청한다.

분석가-통계학자 조합

사실을 고수하고자 하는 분석가에게 있어, 잘못된 것은 없다. 단지 느린 것이 있을 뿐이다. “일을 정확하게 하기” 위해 통계 지식을 사용하다보면, 특히 탐색적 통계 분석과 통계적 정확성 간에 의사 결정자 라는 매우 중요한 필터가 있는 경우, 정작 중요한 곳에서 핵심을 놓치는 경우가 있다. 의사 결정을 해야 하는 사람은 전문가가 많은 노력을 들일 가치가 있는 분석가의 통찰을 선택했을 때 이 것이 비즈니스에 미치는 영향에 대해 책임을 져야 한다. 분석가-통계학자 조합이 능력있는 의사 결정자나 비즈니스 리더가 아니라면 이들의 기술 조합은 사이에 큰 구멍이 있는 샌드위치와 같을 것이다.

하지만 이 간극을 메울 수 있는 분석가는 매우 큰 가치가 있다. 그들을 귀하게 모셔라!

머신 러닝과 AI를 위한 분석

머신 러닝 전문가는 대량의 데이터를 알고리즘에 넣어, 설정을 비틀어서, 제대로 된 결괏값이 생성될 때까지 알고리즘을 계속 돌린다. 여기에 분석이 들어갈 자리는 없어 보이지만, 실제로 비즈니스에서는 가능한 데이터라면 믹서기에 한 번에 밀어넣는 경우가 있다.

머신 러닝 실행에 필요한 이상적인 데이터 셋으로 필터링하는 한 가지 방법은 도메인 지식을 활용하는 것이다-어떤 것이 필요한 지 사람들에게 의견을 묻는 것이다. 다른 방식은 분석을 통해서다. 요리에 비유하자면, 머신 러닝 엔지니어는 부엌에서의 일은 대단히 잘하지만, 지금 당장 서 있는 곳은 온갖 재료들로 가득한 어둡고 거대한 창고다. 그들은 손에 잡히는 대로 아무거나 잡아서 부엌으로 끌고 갈 수도 있지만, 우선 손전등을 가진 선수를 창고에 보낼 수도 있다. 분석가는 단거리 선수다. 그들의 여기에 무엇이 있는 지 빠르게 확인하고 요약할 수 있는 능력은 이 과정에 필요한 초능력과 같다.

분석가-ML전문가 조합

분석가는 머신 러닝 프로젝트에 속도를 붙일 수 있어서, 두 가지 기술을 모두 갖추고 있으면 매우 유용하다. 하지만 불행히도, 분석과 머신 러닝 기술 간의 프로그래밍 스타일이나 접근법이 다르다보니 어느 한 쪽에 대해 최고 수준의 기술을 가진 경우는 드물다(그리고 그 사람이 필요에 따라 느리고 철학적이 될 수 있는, 진정한 풀스택 데이터 과학자는 정말로 희귀한 괴수다).


(다음 글에 계속됩니다…)

Written on January 20, 2019