Prologue
실험 설계 분야에서 지속적으로 연구되고 있는 주제 중 하나는 ‘실험자 편향(Experimenter bias)’ 에 관한 것이다. 설계 시에 실험자가 인지하지 못하는 편향이 생길 수 있고, 이를 위해서 실험 설계에서 어떤 장치를 해야 하는지에 대해 다양하게 연구되고 있다. 주요 주제로는 표본 추출시의 편향(예: 자동차 안전장치 실험 샘플에서 여성 체형이 제외되는 경우), 절차상의 편향(예: 마감 기한까지 시간이 부족해서 실험 전체를 조절하는 것이 아닌 특정 단계에 소요되는 시간만을 짧게 잡는다든가), 그리고 여기서 이야기할 설계시의 편향과 해석 시의 편향이 있다. 그리고 이 둘은 크게 떨어지지 않는다.
왜 갑자기 실험 설계에서의 편향성에 대해서 이야기하게 되었는지는, 제목에서도 일부 언급했지만, 오늘날은 많은 기업에서 실질적으로 ‘A/B테스트’를 비롯한 ‘실험’이라는 것을 끊임없이 하고, 우리는 데이터와 실험 기반으로 의사 결정을 한다고 말하지만, 실험 설계와 실험 결과를 어떻게 잘 해석하고 사용하는 지에 대해서는 이에 비해서 거의 언급되지 않기 때문이다. 하지만 이런 것이 고려되지 않은 ‘실험(테스트)’을 과연 제대로 ‘실험(테스트)’라고 부를 수 있는 지에 대해서는 늘 의문이다.
(물론 여기서, 통계 관련 용어는 신중하게 사용해야 하는데 남용되는 용어가 많아서 늘 고민이 많은 직업적/개인적 성향도 있다는 것은 언급하고 넘어가도록 한다.)
실험자 편향
흔히 실험은 어떤 가설을 가지고 설계를 하고, 거기에 데이터를 통해서 결과를 추론하게 된다. 그리고 이 ‘가설’을 기반으로 데이터를 살펴보고, 이에 대해서 해석을 하게 된다. 이 과정은 기본적으로 객관성을 가져야 한다고 가정하고 있지만, 모든 일은 사람이 하고, 이 가정은 가정에서 끝난다. 이미 실험자 편향의 70%는 연구자의 가설을 지지하는 결과에 영향을 미친다는 로젠탈의 실험자 편향 관련 연구는 일종의 고전이 되었다.
실험을 설계하는 과정에는 다양한 영향이 있겠으나, 결과 해석에서의 문제는 어느 정도 일반화를 할 수 있다. 우선 주로 많이 쓰는 방식인, 유의성 검정 기법을 살펴보자. 피셔가 제창한 실험 설계법의 기반이 되는 방법으로, 쉽고, 쓰기 편하며, 여러 모로 유용한 방법이라 다방면으로 사용된다. 다만 이를 잘 사용하는 데는 늘 어려움이 있다. 흔히 유의성 검정 기법에는 귀무가설과 이에 따른 대립가설을 세우고(보통 이를 A/B테스트에서는 A와 B로 둘 것이다), 실험을 하고, 그 결과를 보겠지만, 오늘날 일반적으로 하는 샘플 수로는 많은 경우 무언가의 차이는 감지되기 마련이다. 그리고 이에 대한 p-값은 0.05 미만을 쉽게 통과하기 마련이다. 하지만 이 결과가 ‘통계적으로 유의’하다고 하더라도 실제로 중요한 차이인지, 유의한 차이인지 구분 하는 것은 쉬운 일이 아니다. 그 뿐 아니다. 만약 95% 유의수준을 잡고 p값을 살펴보는데 p값이 0.07 가량이 나왔다면, 이 결과를 무 자르듯이 통계적으로 유의하지 않다고 말하고, 대립가설을 선택하는 게 맞는 일일까?
그리고, 많은 경우, 사람들은 실험 설계 시에 귀무가설을 정하면서 마음의 편향이 생긴다. 이는 의도가 나쁘다거나, 지식이 부족해서가 아니다. 무언가를 하고자 하는 방향성이 있고, 그 과정에서 이 방향성에 대한 논리를 전개하기 위한 실험에서, 방향성에 가까운 요인을 주로 선택하고자 하는 마음은, 쉽게 억누를 수 없다. 그리고 데이터를 검토하거나, 데이터를 보는 사람과 실험 설계를 한 사람, 혹은 의사 결정자는 실험 내용 검토 요청을 한다. 혹시 여기 이상치를 제거하고 봐야 하는 것이 아닐까? 특정 날짜에 이벤트가 있었던 것을 고려했던가? 다양한 이상치나 외부 요인을 고려하는 것은 데이터, 특히 실제 데이터를 보는 경우에는 필요한 부분이고, 이를 고려하는 방안은 여러 가지다. 상황과 경우에 따라서 최선의 방법은 늘 달라지고, 그 최선의 방법에는 결국 도메인 지식이 개입할 수밖에 없다. 그리고 아무도 나쁜 의도를 가지지 않더라도, 자연스럽게 데이터 고문의 일종인 p해킹이 일어나게 된다(연구에서도 p해킹은 다수 일어나고, 이에 대해서는 레퍼런스 책이나 인터넷 등에 다양하게 나와있으므로 따로 정리하지 않는다. 이런 사례 등으로 인해 2016년에 미국 통계학회에서는 p값 오용에 대한 성명서까지 내기도 했다). 그리고 이 과정에서 문제가 있었는지, 이렇게 해석하는 것이 맞는 지 조금은 의문이 생길 수 있으나 어디서부터 잘못된 것인지를 쉽게 인지하기 힘들다.
그렇다면 흔히 말하는 베이지안 기법을 사용하면 더 도움이 될까? 베이지안 추론을 기반으로 하는 베이지안 실험 설계도 존재하나, 현재까지의 실험 설계 기법이 주로 피셔의 실험 설계 기법을 기반으로 하고 있고 특히 A/B테스트 게열의 문제에 이를 반영하기 쉽지 않다. 베이지안은 상황에 맞는 확률 모델이 output으로 나오며, 이를 다시 점추정으로 반영하면 이전의 실험설계에서 발생하는 편향 문제가 동일하게 발생하며 굳이 확률 모델로 보는 이점이 사라진다.(요즘 종종 보이는 베이지안 A/B테스트라고 나오는 것은 MCMC등의 기법만 활용하고 결론은 점추정으로 나오는 형태라서 이 부분 역시 실험 설계에서 따로 살펴 볼 필요는 없어보인다). 그래서 베이지안은 (반드시 사전 사후 모두를 고려하는 작업에서만 사용되지는 않으나) 학습에 의한 추론에 보다 잘 활용되기도 하고, 확률을 보다 적극적으로 사용하는 경우에 더 유용하다. 점추정치에 따른 ‘답’을 주어야 하는 ‘빠르고 쉽게 사용할 수 있어야 하는 실험’에 잘 활용하기는 쉬운 일은 아니다.
또한 기업에서의 실험 결과는 분석 결과로 끝나지 않는다. 이 결과를 보고 행동을 하는 데에서 실험은 완전히 종료된다. 하지만 이미 설계 시의 편향이 들어간 상태에서, 결과가 만족스럽지 않았을 때, 이에 대해서 ‘실험에 따른 행동’은 제대로 이루어질 수 있을까? 기업에서 두 상황에 대해서 볼 수 있는 지표는 여러 가지가 있고, 이미 실험 설계에서 이를 완벽하게 정의해 두었다고 하더라도, 그에 대해서 어떤 행동을 할 지는 명확한가? 게임북이나 인터랙티브 영화에서처럼, 각 선택지에 대해서 그 이후에 이어질 행동이 명확한가? 데이터를 따른다고 말은 하지만, 그 결과에 따른 행동이 명확하지 않다면, 혹은 어떤 행동을 하는데 주저함이 있다면, 이 역시도 실험자 편향이 될 수 있다. 그리고 이 역시 실험 설계에서 놓치는 부분이 될 것이다.
보완
그렇다면 이를 보완할 방법은 어떤 것이 있을까? 실험자 편향에 대한 연구가 많은 만큼, 다양한 보완책들이 나와있으나, 기업의 데이터 실험에서 사용하기에는 쉽지 않은 조건들이 다수 있다. 예를 들어, 대표적으로 사용되는 기법 중 하나인 Blind analysis의 경우, 분석가가 데이터를 보면서 각각이 어떤 것인지 모르고, 결과도 어떤 것인지 모르는 상태로 실험을 진행하는 것은 현실적으로 어렵다. 다만 여러 내용을 응용해 볼 수는 있다.
실험을 ‘기계적’으로 활용하려는 마음을 내려놓을 수 있다면 최선일 것이다. 물론 ‘마음을 내려놓기’가 쉬운 일이었으면, 애초에 실험자 편향따위는 생겨나지 않았을 것이다. 하지만 실험을 ‘답을 내려주는 만능 도구’라고 생각하지 말고, 하나의 참고 사항으로 생각하고, 의존도를 낮춘다면 이에 대해서 좀 더 객관성을 가질 수 있을 것이다. 애초에 이런 근간을 만든 피셔도 ‘자신의 증거와 개념에 비추어 개별 사례마다 마음을 정한다’고 하지 않았던가.
행동 설계 : 가설을 세우고 실험 목표를 정할 때, 결과를 양측 방향에서 모두 생각해 보면 좋을 것이다. 애초에 가설을 ‘A가 결과가 잘 나올 것이다’가 아니라, ‘A에 대해 가 라는 지표가 B 대비 5%잘 나오면 aa 행동을 하고, B가 5% 이상 잘 나오면 bb라는 행동을 할 것이며, 아닌 경우에는 우선 aa를 하되 ~ ‘ 같이 다양한 결과와 이에 대한 상황을 같이 고민하면(그리고 방향성과 반대되는 것을 오히려 먼저 고민하면) 어느 정도의 보완책은 될 수 있다.
피어 리뷰 : 데이터를 처리하는 과정에서 다른 분석가 등의 피어 리뷰를 받는 등 여러 관점에서 결과를 보는 것도 도움이 될 수 있다. 다른 부서나 다른 관점을 청취하는 것도 도움이 된다. 혹은 가능하다면, 실험 설계를 하는 분석가와(실험 설계가 다른 부서에서 완전히 이루어질 수 있으면 좋겠지만, 아무래도 쉽지 않은 경우가 대다수다) 결과를 분석하는 분석가가 다르고, 분석이 완료될 때까지 실험 설계자가 전혀 개입을 하지 않는 방법도 있을 것이다.
그 외에도, 필요하다면 더 많은 편향에 대한 보완책을 고민해 보아야 할 것이다.
Epilogue
오늘날 기업 환경에서 ‘실험’은 일종의 ‘도구’화 되어 있다. 물론 데이터 분석의 근간은 의사 결정 도구로 사용하기 위함이 맞다. 하지만 그 도구는 보이지 않는 위험성이 매우 많아, 매우 다루기 쉬워 보이지만 여기저기 안전 유의사항이 필요하다. 그리고 마치 이 도구는 마치 무기와 같아, 사용자에게도 많은 주의가 요구된다. 하지만 아직 그 주의사항은 널리 알려지지 않은 모양이다.
기업에서, 심지어 많은 경우 온라인으로(실제 고객 대상으로) 실험을 했고, 이 것을 사용했다, 라고 이야기를 하려면, 실험을 실험답게 해야 하지 않을까. 실험이 실험다워진다는 것은, 실험 자체를 진행하는 것만큼 그에 대해 결과를 제대로 해석하고, 이 것이 제대로 어떻게 실제 행동으로 이어졌다까지의 과정을 촘촘하게 살펴보고 설계하는 것이 아닐까. 하지만 많은 경우는 이런 것을 무시하고 횟수와 기술만을 이야기하며, 데이터 기반의 의사결정이라는 말을 하기에만 여념이 없다. 여기에는 어떤 나쁜 의도가 있다고는 생각하지 않는다. 다만 데이터는 단순하고, 실험은 답을 주는 도구라는 생각이 오늘날의 기업 환경에서 보편화되어 있기 때문일 것이다. 하지만 절대적인 도구는 없으며, 결국 일은 사람이 하고 있으며, 의사 결정까지 가는 과정에는 많은 대화와 생각과 판단이 녹아있으며, 모든 판단은 그 과정이 객관적이라고 하더라도 사람의 생각이 전제로 깔려있음을 잊지 말아야 한다.
Reference
캐럴라인 크리아도 페레스, [보이지 않는 여자들], 2020
조던 엘렌버그, [틀리지 않는 법], 2016
미국 통계학회 성명서: http://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf
로젠탈의 실험자 편향: https://onlinelibrary.wiley.com/doi/10.1002/bs.3830080302
실험 설계와 분석: https://www.wiley.com/en-us/Design+and+Analysis+of+Experiments%2C+Volume+1%3A+Introduction+to+Experimental+Design%2C+2nd+Edition-p-9780470191743