Home 인과의 사다리
Post
Cancel

인과의 사다리

‘상관관계가 인과관계는 아니다’라는 말은 [데이터 분석가의 숫자유감]의 1장에 바로 등장하는 말이기도 하고, 데이터를 조금이라도 본다면 수없이 듣게 된다. 하지만 예나 지금이나, 실제 데이터를 마주하는 사람들은 이 문장을 머리로는 알면서도 눈에서는 헷갈리는 일이 여전히 많다. 이런 혼란이 드는 것은 역시 국내에 디아 펄(Judea Pearl)의 [The Book of Why]가 여전히 번역이 안 되었기 때문이고(아님. 하지만 책이 번역 안 되어서 내가 한이 맺힌 건 맞음) 이 책에서 제시하는, 인과관계를 정리하는 데 유용한 도구가 바로 위의 그림으로도 가져온 ‘인과의 사다리(Causal Ladder)’ 다. 그래서 이 내용을 간단히 소개해볼까 한다.

사다리의 세 가지 단계

[The book of why]에서 저자는 인과 추론을 세 단계로 구분해서 설명한다.

  1. Association (상관): “지금 무슨 일이 일어나고 있는가?”
  2. Intervention (개입): “특정 행동을 하면 어떻게 되는가?”
  3. Counterfactual (조건적 사고): “만약 그 행동을 하지 않았다면 어떻게 되었을까?”

한 단계씩 올라갈 수록 더 깊게 생각해야 하고, 그만큼 난이도가 높아진다. 이에 따라 필요한 데이터와 (사고, 논리 등의) 모델, 계산량도 많아질 수 있다.

1단계: 상관 (Association)

상관 단계는 관찰된 데이터를 통해 변수 간의 관계를 탐색하는 가장 기본적인 단계다. “A가 변하면 B도 변한다”와 같은 단순한 관찰이 이루어지지만, 이는 인과관계를 의미하지 않는다. 사람들은 ‘A가 변하면 B도 변한다’ 라고 생각하지만 사실 이는 ‘A가 변하고 B도 변한다’ 의 관찰일 뿐이다. 숨겨진 변수(hidden variables)의 영향 및 관찰 내용 바깥을 전혀 알 수 없기 때문이다.

[데이터 분석가의 숫자유감]에서도 인용한 유명한 예로, “아이스크림 판매량과 물놀이 사고 수는 상관관계가 있다”는 이야기가 있다. 이는 둘 다 여름에 증가하는 현상으로, 상관 단계에서 인과적 결론을 내릴 수 없는 이유다. 또한 그 관계가 단일하게만 이루어지지는 않는다. A와 B가 C에 영향을 주는 것만 해도 다음의 두 가지 그림 같이 다르게 나타날 수 있지만, 변수 간의 상관 관계를 파악하는 데 있어서 이 두 가지를 구분하는 것은 어려울 수도 있다.

| — | — |

2단계: 개입(Intervention)

개입은 특정 변수를 변경했을 때 다른 변수에 미치는 영향을 평가하는 단계다. “광고비를 10% 증가시키면 매출은 얼마나 증가하는가?”와 같은 질문이 여기에 속한다. 이 단계에서는 주로 사용되는 무작위 통제 실험(Randomized Controlled Trial)이나 그 외의 여러 개입(intervention) 을 사용하는 방법론이 있으며, 이를 통해서 실제 인과관계를 입증하고 이에 따른 의사 결정을 할 수 있도록 돕는다. 여기서는 위의 두 개의 그림을 여러 가지 반복적 탐색이나 실험을 통해서 파악을 할 수 있기도 한다. 인과 추론에서의 개입 단계에서는 데이터의 일부를 가져와서 탐색하는 조건부 확률 계산을 통해서 이루어지기도 합니다.

3단계: 조건적 사고(Counterfactual)

조건적 사고는 가장 까다로운 단계로, “과거에 이 결정을 하지 않았다면 현재 결과가 어땠을까?”를 살펴보는 단계다. 실제로 일어나지 않은 사건을 가정하여 모델링하기 때문에 강력한 가정과 정교한 모델링(Structural Causal Models, SCM)을 필요로 하며, 여기에서는 여러 ‘가정(Imagining)’이 들어간다.

예를 들어, “그때 이 광고 캠페인을 하지 않았다면 우리의 현재 시장점유율은 어떻게 달라졌을까?”와 같은 질문에 답하는 것이 이 단계의 특징이다. 조건적 사고를 통해 우리는 과거의 의사결정이 실제 결과에 미친 정확한 영향을 생각해 볼 수 있으며, 향후 더 나은 선택을 위한 중요한 통찰을 얻을 수 있다.

이런 가정을 세우는 데에 있어서 데이터 분석에서는 도메인 지식이 도움이 될 수 있다. 간혹 데이터에서 답을 찾지 못하고, 예상치 못한 데에서 답을 찾기도 한다. 혹은 심슨의 역설처럼, 데이터에 가중치를 다르게 적용한다거나 했을 때 답을 찾게 되기도 한다. 때로는 완전히 새로운 시선에서의 가정이 도움이 되기도 한다.

오늘날의 인과 분석

인과 분석은 예전부터 지금까지 항상 관심의 대상이었다. 데이터 분석의 귀결은 항상 ‘이게 그래서 왜 이렇게 되었는데?’ (인과)가 아니면 ‘그래서 다음엔 어떻게 될 건데?’(예측) 이었다. 하지만 이 두 주제는 항상 까다롭고 명확하게 나오지 않는 주제였다.

각각에는 이유가 있지만, 인과 분석만 살펴보더라도 여전히 어려운 주제이기는 하다. 오늘날 훌륭한 AI알고리즘과 데이터와 빠른 계산이 가능한 기술이 주어졌다고 해도 완벽히 인과관계를 규명하는 것은 여전히 어렵다. 이제는 조건적 사고 단계에서 빠른 계산량을 통해 다양한 질문을 고려할 수 있게 되었지만, 인간의 직관과 경험이 담긴 미묘한 가정과 현실의 복잡한 맥락을 효과적으로 포착하는 것은 불가능에 가깝다. 결국, 기술적 발전에도 불구하고 인과적 분석과 의사결정은 인간의 판단력과 직관에 크게 의존할 수밖에 없다.

그래서 여전히 인과 분석은 흥미로운 주제고, 기술 분야의 많은 부분이 이제 사람이 손 댈 필요가 없다고 하더라도, 여기서는 아직 해야 할 것들이-혹은 좀 더 사람이 할 필요 없는 방법으로 저 인과의 사다리를 만들어 본다든가 등등- 좀 더 남아있는 모양새고, 일단 [The book of Why]가 올해는 좀 한글판이 나왔으면 좋겠다(…).

    This post is licensed under CC BY 4.0 by the author.

    PyMC와 마케팅 믹스 모델

    인과 관계의 다양한 구조와 분석 방안