Lean Analytics, Revisited (in AI and Agent era)

나는 린 분석(Lean Analytics) 체계를 정말 좋아했다. 대략 2013~14년에 처음 접한 린 분석 내용을 처음 보면서 이거다 싶었다. ‘기초 공사는 텅텅 비어있는데 괜히 데이터로 복잡한 것만 하고 싶어 한다’ 고 늘 생각하던 차에, 허상 지표를 버리고 핵심 지표를 정하고 이를 기반으로 제품의 상태를 진단하고 개선해 나가는 구조는 얼마나 아름답던지. 게다가 이걸 있어보이게 정돈해서 ‘린 분석’이라고 명명하며 한참 바람이 불던 스타트업 그로스 문화의 토대를 마련해 주지 않았나. 이 시기의 수많은 겉만 번지르르한 거품 중에 이 것은 거품이 아닌 진짜였고, 나는 수많은 모래성 사이에서 결코 무너지지 않을 것 같은 돌탑을 발견한 기분이었다.

실제로 일하면서 린 분석을 여러 곳에 직접 적용을 했다. 이를 위해 무수한 커뮤니케이션을 하고 여러 복잡한 일들을 감내해야 했지만 그것은 어차피 늘 겪는 일었다. 특히 린 분석 관련된 일은 작은 피드백을 빠르게 받을 수 있고 결과로 나타나는 것도 확실했기에 보람도 있었다.

>(후술할 블로그에서 정리한 린 분석의 한글 요약)

자신의 단계 파악하기 모든 비즈니스는 공감 → 고착화 → 바이럴 → 매출 → 확장이라는 5가지 단계를 거칩니다. 탄탄한 기반을 다지기 전에 성장에만 급급해 자신이 속한 단계를 착각하거나 건너뛰려 해서는 안 되며, 각 단계에 맞는 핵심 지표를 추적해야 합니다.
비즈니스 모델 파악하기 비즈니스 모델을 SaaS, 이커머스, 양면 시장, 사용자 생성 콘텐츠(UGC)/커뮤니티, 모바일 앱, 미디어 등 6가지 전형으로 분류합니다. 자신의 비즈니스가 어떻게 작동하는지 정확히 파악하고 구조화해야만 어떤 지표를 추적해야 할지 올바르게 결정할 수 있습니다.
가장 중요한 단 하나의 지표 선택하기 (OMTM) 어느 단계, 어느 비즈니스 모델에서든 집중해야 할 단 하나의 핵심 지표가 존재합니다. 조직의 모든 문제를 한 번에 고칠 수는 없으므로, OMTM을 설정하여 지금 당장 무엇에 집중하고 어떻게 측정할 것인지 방향을 잡아야 합니다.
목표 기준선 설정하기 다음 단계로 넘어갈 자격이 생겼는지를 알려주는 벤치마크(목표치)를 설정하는 것입니다. 이는 특정 지표에 대한 명확한 타겟을 세워 성과를 평가하는 기준점이 됩니다.

난 린 분석을 정말 좋아했다.

하지만 더 좋아하고, 더 알고, 더 쓸 수록 단점도 보였다. 사실 대다수의 문제는 린 분석 자체의 문제는 아니었다고 생각한다. 여러 사람들이 제품 개선 그 자체보다 ‘린 분석’ 이라는 프레임에 젖어있고, 혹은 특정 지표에 과하게 매몰되었다. 일부 린 분석의 앞 부분밖에 모르면서 자신이 잘 알고 있다고 생각하고 남의 말을 듣지 않는 사람들이 많은 문제를 초래하기도 했다.

이를 알고 있지만 어쨌든 전면에서 직접 상대해야 하는 나는 조금씩 지쳤다. 게다가 이렇게 얄팍하게 사용하던 사람들이 조금씩 실패하는 경우가 생기자 이 역시 본인들의 문제가 아닌 ‘린 분석’ 자체의 문제고 우리와 맞지 않는다고 무시하는 경우가 종종 생기기도 했다. 그리고 점차 린 분석 체계는 이제 어느 정도 교과서처럼 여겨지기 시작했다(늘 그렇듯이 교과서와 학교 수업에만 충실해도 시험을 잘 보지만 많은 학생들은 온갖 외부 공부를 하면서 교과서와 학교 수업은 무시하고 시험을 잘 본 사람에게 어떻게 잘 봤냐고 캐묻기 바쁘지 않던가). 예전만큼 주목받지 않게 되었고, 나 역시도 이를 기반으로 할 뿐 각각의 제품에 맞는 개별적인 방향을 찾아나갔다.

그렇게 시간이 흘렀고, AI가 산업 전면에 등장하면서 많은 것이 달라졌다. 그 변화의 속도에 따라가는 것만으로도 버겁고 과거의 많은 것은 점 잊혀졌다.

그러던 와중, 린 분석을 제창한 벤 요스코비츠와 알리스테어 크롤의 최근 린 분석에 대한 글을 읽었다. 오랜만이라 반갑기도 하고, 시절이 바뀌어도 제품은 존재하는데 여기서는 어떤 이야기를 할까 궁금하기도 해서 신나게 읽었다. 그리고 일견 공감했지만 일견 덜그덕거리는 부분도 있었다.

이 글의 내용은 (린 분석에 관심이 있다면 한 번 전체를 읽기를 권장하지만 일단 이야기를 이어가기 위해) 간단히 요약하자면 다음과 같다.

(숨긴 내용을 열어보세요)

1. 린 분석의 핵심 원칙 유지 : 자신의 현재 단계 이해, 비즈니스 모델 파악, 가장 중요한 단 하나의 지표(OMTM) 찾기, 목표 기준선 설정의 4가지 핵심 원칙은 AI 시대에도 여전히 적용된다. 하지만 AI가 사용자 인터페이스, 수익 마진, 비용 구조 등을 뒤바꾸면서, 무엇을 어떻게 측정할 것인가는 완전히 달라진다.

2. 제품 지표의 6가지 변화 (Product Metrics Shifts)

- 가치 창출 시간의 붕괴: 사용자는 매우 빨라졌고 고품질의 결과물을 첫 시도 만에 기대한다. 도구를 능숙하게 다루기까지 걸리는 시간 역시 극적으로 짧아졌기 때문에, 기존의 가치 창출 시간보다 ‘첫 유용한 결과물까지의 시간’이나 ‘첫 시도 성공률’ 등을 새로운 지표로 삼아야 한다.

- 확률적으로 변한 활성화: 기존 SaaS에서는 정해진 절차(데이터 연동, 초대 등)를 마치면 정해진 결과가 보장되었지만, AI 환경에서는 모든 과정을 마쳐도 형편없는 결과물이 나올 수 있다. 따라서 활성화는 단순한 퍼널 통과 여부가 아니라 ‘품질 가중치’가 부여된 이벤트로 측정해야 한다.

- 방향성이 중요해진 참여도: 과거에는 사용자가 앱에 오래 머무는 것이 좋은 신호였지만, AI 시대에는 그렇지 않다. 사용자가 원하는 답을 얻기 위해 프롬프트를 고치며 고군분투하는 시간은 나쁜 참여도이며, 반대로 AI가 긴 시간 동안 사용자의 작업을 대신 수행해 주는 시간이나 사용자 개입 없이 즉시 작업이 완료되는 것이 진정한 긍정적 지표다. 즉, 체류 시간 자체가 아니라 시간이 ‘무엇에’ 쓰였는지를 파악해야 한다.

- 벽에서 흐름(Flow)으로 변한 고착도: AI 제품의 고착도는 사용자를 가둬두는 해자가 아니라, 여러 작업과 다른 도구들에 널리 통합되는 운하의 형태로 발전한다. 이 경우 단일 기능 집중성보다는 사용자의 작업 다양성, 다른 툴과의 통합 깊이, 워크플로우를 관통하는 연결성 등을 추적해야 한다.

- 일급 지표가 된 ‘품질’: AI의 결과물은 확정적이지 않고 일종의 결과 분포를 가지며, 외부 모델 업데이트에 따라 예고 없이 품질이 무너지는 취약성을 보인다. 따라서 코호트별 결과물 품질 차이를 살피고, 지속적인 품질 평가 프레임워크를 운영하는 것이 필수적이다.

- ‘AI 신뢰도’라는 선행 지표: AI에 대한 편안함과 수용도에 따라 동일한 도구를 사용하는 유저라도 행동 패턴이 극명하게 갈린다. AI 네이티브 유저와 AI 사용을 주저하는 유저를 별도의 코호트로 나누고, 이들의 채택률 및 승인율 등을 따로 추적하는 것이 중요하다.

3. 비즈니스 모델 지표의 3가지 변화 (Business Model Shifts)

- 파워 유저의 역설과 마진 붕괴: SaaS와 달리 토큰 소비는 가변 비용이므로, AI가 들어간 제품의 정액제 구독 모델에서 파워 유저는 사용할수록 회사의 마진을 깎아먹어 부정적인 유닛 이코노믹스를 만든다. 이에 따라 결제 유저당 마진이 아닌 ‘활성 유저당 매출 총이익’과 ‘성공적인 태스크당 비용’을 측정해야 한다.

- 제품 결정 영역으로 들어온 가격 책정: 과금 모델(예: 결과물당 과금 vs 월 무제한)은 사용자에게 성공의 의미를 정의해주며, 수익 모델과 밑바탕의 비용 구조를 일치시켜야 하므로 철저히 제품적 관점의 결정이 되었다.

- 실험의 필수화와 ‘바이브 스터핑’ 경계: AI 기능은 추가 비용이 0에 가깝기 때문에 증거 없이 직감이나 느낌만으로 기능을 추가하는 ‘바이브 스터핑’의 위험이 매우 크다. 무분별하게 추가된 AI 기능들은 사용될 때마다 추론 비용을 발생시켜 수익성을 조용히 갉아먹으므로, 실험 횟수 및 엄격한 가설 검증이 중요한 방어책이 된다. 결과적으로 이 모든 것은 1달러의 컴퓨팅 비용당 얼마나 많은 가치와 매출을 뽑아내는지 최적화하는 ‘가치 밀도’의 측정 문제로 귀결된다.

4. 미래: 인간이 배제되는 루프 (Humans Receding from the Loop)

- 향후 AI 제품 구축은 너무 쉬워져서, 코드를 지우거나 기능을 삭제하는 것을 기피하며 낡은 코드가 소리 없이 비대해지는 새로운 위험을 마주하게 된다.

- 에이전트가 인간을 대신해 사용자가 되기 시작하면서, 버튼 클릭과 퍼널 전환을 측정하던 기존의 UX는 에이전트의 작동을 감독하고 개입하는 HX(Harness Experience)의 영역으로 완전히 달라질 것입니다.

- 또한, 사용자가 다른 AI에게 작업을 지시할 때, 그 AI가 우리 회사의 앱이나 API를 호출할지 결정하게 되면서, AI의 선택을 받기 위한 ‘발견성’과 ‘재사용’ 여부가 기업의 새로운 핵심 플랫폼 리스크로 나타날 수 있다.

따라서 지금 당장 피상적인 참여도 지표를 맹신하지 말고, 코호트별 품질 뷰를 구성하며, 활성 유저당 마진을 엄밀히 파악할 것을 권장한다. 더불어 에이전트 트래픽을 분리하여 측정하고 평가시스템을 구축하며 무분별한 기능 탑재를 중단하라고 조언하며, 린 분석의 틀은 유지되되 렌즈 자체가 완전히 이동했음을 인지해야 한다.

제품 개발에 있어서 AI가 전면적으로 나서면서 이런 변화가 기본적인 제품 가치 평가 자체에 직접적으로 반영되어야 한다는 전반적인 통찰은 인상적이었다(사실 개입되어야 했지만 이렇게 본격적으로 이야기하는 것은 흥미로웠다). 뭐가 되었든 제품의 본질적인 가치는 변하지 않는다는 것도 새삼 확인할 수 있었다.

하지만 이 글에서 계속 읽으면서 마음에 걸리는 부분이 있어 , 자꾸 덜그덕거린다는 기분이 들었다.

린 분석을 제창한 후 10여년 간 아무 일도 하지 않고 자신들의 이론에 대해 현실에서 어떻게 돌아가는 지에 대해 어떤 통찰이나 반성도 없다가, 오늘날 갑자기 AI가 물밀듯이 들어오니 이제서야 갑자기 그간의 체계를 개편하면서 모든 것을 다 AI 시대에 바뀌어야 할 것으로 퉁치고 있다는 것이다. AI 전에도 이미 진작에 바뀌었어야 하는-그리고 그때문에 사람들이 린 분석을 그냥 교과서적인 것으로 치부해 버리거나, 결국 제품 개선에 정확하게 사용되지 못했던- 것들이 있다는 것을 이렇게 덮어버린다구요?

우선 이 글에서는 ‘사용자에게 AI 사용 기능이 제공되는지’ 와 ‘AI를 사용해서 제품을 개발하는 지’, ‘에이전트가 제품을 사용할 수 있는 형태인지’ 같은 것을 모두 AI와 에이전트라고 퉁치고 있다. 그래서 문맥을 자세히 살피지 않으면 이건 AI가 어떻게 이 제품에 연관된 것인지 다소 헷갈릴 수 있다. 물론 이게 이전처럼 책으로 잘 정리되어 나온다면 좀 더 맥락이 자세히 기술될 수도 있을 것이다(물론 이전의 책의 서술 형식으로 볼 때 블로그와 크게 다르지 않을 것이라고 생각되기는 한다).

또한 새로운 양 말하는 지표들도 모호하다. 물론 원체 많은 지표들은 어느 정도 모호성을 가지고 있고, 그걸 구체적으로 각 제품이 가지고 있는 데이터와 속성에 맞춰서 벼리는 작업은 데이터 분석가/과학자들의 몫이었다. 하지만 ‘사용자의 성공’, ‘발견성’ 같은 건 그 이상으로 과하게 모호하기 그지 없다. 그리고 그 ‘발견성’이란 건, 이전 린 분석에서 이를 위해 ‘바이럴’ 같은 항목이 있었던 것 아니었나? ‘재사용’은 한 번도 중요하지 않은 적이 없었는데 그게 새로운 핵심 리스크라니 정말 무슨 이야기를 하고 싶은 건지 모르겠다.

제품 지표의 6가지 변화 관련 내용은 좀 당황스러울 정도다. AI를 제품 개발 및 기능에 적극적으로 투입한 경우에 고유하게 나타나는 변화 한 두 가지를 제외하고는 이미 진작에 살펴봤어야 하는 내용이다. 무엇보다 눈에 띄는 것은 체류 시간에 대한 반성이다. 수많은 제품들이 체류 시간 늘리자고 목적과는 상관없는 다크 패턴과 쓸데없는 내용을 제품 안에 꾸역꾸역 집어넣어 정작 목적을 흐리게 하던 우습기 그지 없는 상황들, 이걸로 조직 내외에서 피곤했던 기억들이 모락모락 떠오른다. 물론 이건 실무에서야 유연하게 하고 제품의 목적이 우선이지-라고 생각하지만, 이걸 굳이 이제 와서 이렇게 말하고 있으면 그 전에는 아무 생각이 없으셨던 것 같지 않나.

이미 체류 시간은 린 분석에서 그렇게 강조했던 일종의 ‘허영 지표’가 되어 있고 , 이를 제품의 목적과 완전히 일치하는 경우가 아닌 데에서 따지는 것은 그저 제품에 대한 이해도가 부족한 사람으로 보일 뿐이다. 이걸 이제 와서 마치 새로운 양 들고 오는 건 그동안의 반성이 없었다는 것으로밖에 보이지 않는다.

다른 것들도 마찬가지다. 기존에는 모든 온보딩 과정을 거치면 결과물이 보장되었다는 말은 너무 나이브한 것 아닌가. 사용자가 제대로 퍼널을 통과해도 본인이 해당 제품에서 기대하는 목적을 달성하지 못하면 이탈하는 것은 매한가지였고, 그 목적은 제품의 의도와 다소 다를 수도 있다. 물론 AI의 결과가 확률적이 되면서 품질 편차의 변화 정도가 커질 수는 있겠지만, 첫 인상이 중요하고 재사용이 중요한 것은 이 시대에 새로 나온 가치가 아니다.

그 뿐인가. 다른 도구와의 통합과 워크플로우 체인 역시 AI 시대에 갑자기 등장한 개념이 아니다. 특히 SaaS같은 경우 이런 워크플로우 체인은 이전부터 중요한 역할이었다. 물론 AI가 보편화되면서 더 다양한 작업이 등장할 것이고 그 양도 늘어나겠지만, 마치 이 시대에 새롭게 등장한 것처럼 이야기하는 건 좀 당황스럽다.

바이브 스터핑에 대한 이야기도 마찬가지로 이상하다. 혹시 먼 옛날 기능 공장 이야기를 기억하시는 분이 계실 지? 물론 원인은 다르고 AI는 모든 개발을 빠르게 하고 사람들의 무조건적인 AI 신뢰가 더해지면서 그 속도가 매우 빠르게 오기는 하지만, 기본적으로 기능을 빠르게 찍어내며 제품만 무겁게 만드는 것은 이미 기능 공장 이야기에서 다 다루었던 것이다. 오늘날에는 토큰 소모를 통한 마진 킬러가 되는 것을 걱정하지만, 예전에도 이로 인해 리소스는 낭비되었다. 근거 없는 기능 추가는 이미 예전부터 문제였다. 새로운 단어로 포장했을 뿐. 이런 식의 단어 낭비는 이미 그간 충분히 보아왔다.

조금 비약하자면, 사실 이제는 린 분석 체계 자체가 작동하지 않을 것 같다는 것을 저자들도 느끼게 되었지만 미래는 그들 역시도 알 수 없고, 그 와중에 린 분석 체계는 잡고 싶어서 무리수를 두는 게 아닌가 싶은 생각마저 다소 든다.

본 포스트에서 HX의시대가 오고 있다고 하는데, 그러면서 데이터에 ‘에이전트 트래픽을 별도의 코호트로 분리하라’고 매우 단편적인 이야기만 한다. 아마도 API 사용 방식 등을 통해서 에이전트와 실사용자의 코호트를 추정해서 분리할 수는 있을 것이다. 하지만 기존에 UX를 통해서 수집하던 다양한 데이터와 이를 통한 분석은 이제 예전만큼의 위치에 있을 수 없고, 이 부분에서 기존의 린 분석의 근간은 꽤 크게 흔들린다. 행동 데이터를 통해 어떻게든 인과적으로 사용 관련 맥락을 추정하고 이를 통해 어떤 지표의 값을 얻고자 했던 것도 이제는 어려워진다. 기존의 데이터 기반 가설 설정에서 학습으로 이어지는(Build-Measure-Learn) 린 사이클 자체가 예전만큼 작동할 수 없다는 것이다.

린 분석은 예전부터 중요했고 지금도 분명 그 가치가 있다. 아마 저자도 혼란을 겪고 있는 것이 아닐까 싶다. 하지만 저자의 혼란은 분명 AI가 많은 것을 바꾸고 있기 때문이라고만 치부해 버리면 곤란하다. 그 혼란에는 과거에 린 분석에서 너무 단순한 지표에 기대서 느슨하게 데이터를 보던 구조를 주창해 온 것에도 책임이 있다. 결국 여기서 다시 찾아본 세계는 과거에는 열심히 돌려 막을 수 있었던 있어보이고 단순한 분석과 온갖 핑계를 대면서 기능 공장을 만들어왔던 습관이 이제는 그 속도와 비용을 감당할 수 없게 되었다는 냉정한 현실이다.

변화된 체계에서 새로운 무언가를 만들기에 앞서, 과거에 얼마나 게으르게 가치를 추정해 왔는지부터 이해하는 것이 시작이 아닐까 싶다. 시작은 빠를 수록 좋다. 기존의 가치 체계가 상당수 무너지는 현재에 할 일은 아주 많다. 이 글에서 말하던 데이터를 이 시대에 맞게 설계하고 축적해 나가는 것, 필요한 다량 평가 체계를 만들고, 대신 이 평가가 충돌하거나 평가 공장이 되지 않도록 하는 것, 인간의 행동 분석 체계를 만들던 것처럼 시스템의 결과 분석 체계를 만들어 나가는 것 등, 이런 이야기를 좀 더 많이 해나갈 필요가 있다.

물론 뭔가 신나게 비판만 하다 만 것 같지만, 앞서 길게 서술했듯이 나는 이 체계에 나름 애정을 가지고 있고 나에게 많은 도움을 주었다는 사실을 절대 잊고 있지 않다. 이것도 다 애정이 있기 때문에 나온 글 아니겠는가(사실 애정 없이 이 긴 글을 열심히 읽고 주절주절 쓰고 있지 않을 것이다).

이렇게 너도 나도 혼란에 빠진 시기에 정작 바닥을 다져야 하는 데이터는 어떻게 하고, 가치 체계는 어떻게 잡아가야 할 지, 그 와중에 제품의 목표는 어떻게 지킬 수 있을 지 다양한 고민이 많이 필요하고, 여러 사람의 생각도 듣고 싶습니다. 관련해서 이야기할 것이 있으신 분들은 편하게 연락을 주셔도 좋겠지요.

덧. 1. 이 글의 제목은 여기서 비평한 포스트의 제목과 올더스 헉슬리의 [다시 찾아본 멋진 신세계 (Brave New World, revisited)]의 합작임을 밝혀둔다. 밝혀두는 이유는…그냥 제가 [멋진 신세계] 소설을 매우 아끼기 때무네 한 번이라도 언급하고 싶었습니다(…).
덧. 2. 기존 글 요약 부분에서는 AI를 50% 이상 활용했다(…). 하지만 나머지는 다 늘 그렇듯 내 것임.

Lean Analytics, Revisited (in AI and Agent era)

Further Reading

A/B테스트로 효과를 보지 못했다면? 목표부터 다시 살펴보세요.

일론 머스크와 xAI는 과연 '궁극의 AI'를 만들 수 있을까요?

AI와 관련한 최근의 나의 소고