물론 제목은 약간의 낚시이며 내가 당장 업계를 떠난다는 것은 당연히 아니다(여러분 저는 프롤레타리아고 일단 입에 풀칠을 하고 살아야 한다(주먹울음)). 하지만 한 번은 이런 것에 대한 이야기를 하고 싶었다.
데이터 과학자가 업을 떠나는 이유 라는 글을 흥미롭게 읽었다. 내 생각과 일치하는 부분도 많았고, 하고 싶은 말들도 왕왕 있더라. 어느덧 이쪽 업계에 발을 담근지도 1x년이 된 사람으로서, 좋은 데이터 과학자를 위한 환경이라든가, 어떤 커리어 패스라든가 하는 것들에 대한 생각을 안 할 수 없다. 그리고 나도 종종 이 업계가 지긋지긋하고 이제는 다른 일을 하고 싶다는 생각도 들다가도 할 줄 아는 것이 없는 김에 그냥 일단은 내가 할 수 있는 일을 하자고 생각하고 있지만 어쨌든 지금도 로또만 되면 일을 당장 관두고 싶은 사람(야)으로써 나의 본업인 데이터 과학자 일이라는 것에 대해 여러 가지 생각이 많을 수 밖에 없다.
위 글은 읽어보면 좋겠지만, 영어인 관계로 우선 주요 내용만 요약하면,
- 예상과 실제가 다르다 - 특히 주니어 데이터 과학자들이 가장 일에 좌절하는 경우임. 생각대로 돌아가지 않는 부족한 인프라와, 생각보다 많은 리포팅 업무와 잡무(?), 부족한 데이터, 학교에서 배운 것과는 너무나도 다른 현실
- 분석에 대한 비즈니스에서의 영향력 - 이로 인한 현실과 예상과의 괴리(1)과도 연결됨)
- 데이터에 대한 잡다하고 과도한 기대와 이로 인한 업무 로드
- 실제 비즈니스와 떨어진 팀에서 일하게 됨으로써 발생하는 문제들
결론은 데이터 과학자가 된다는 것은 캐글 대회에서 노는 것이라든가 온라인 데이터 과학 강좌를 듣는 것과는 천지 차이니 현실과 기대치를 최대한 맞추어서 업에 임했으면 좋겠다..는 이야기였다.
그리고 나는 이 글에 추가적으로 좀 더 하고 싶은 이야기가 많았다.
예상과 실제가 다르다
정말 이 말은 팩트 중의 팩트요 어디나 그렇지만 데이터 업계에서는 정말로 많은 일이고 모든 업계가 어느 정도는 그렇겠지만 이 쪽은 거품 덕분인지 정말 예상과 실제의 괴리가 과다하게 크고 많은 사람들에게 내가 기회가 될 때마다 이야기하는 것이고 내가 어쩌다 일할 사람을 고르거나 할 때도 가장 중요하게 보는 요인이다.
데이터 과학자가 가장 섹시한 직업이라는 말에 나는 동의하지 않는다. 아니, 실제로 실무를 해 본 사람들이라면(정말 좋은 회사에 계시는 일부 분들을 제외하면) 아마 대부분 동의하지 않을 것이다. 실제로 데이터 과학자라고 하더라도 회사에서 정말 인력이 충분하다든가, 특별히 데이터 과학자에게 배려를 해주지 않는 한 수많은 리포팅 작업, 데이터 추출, 혹은 데이터 적재, ETL, 아키텍처 잡는 일 등등에 같이 관여를 해야 한다. 이 일은 굉장히 생각과 다르고, 재미가 없을 수 있으며, 본인 커리어에도 큰 도움이 안 될 것 같고, 꽤나 지난한 작업이다.
하지만, 이런 일들은 어쩔 수 없이 필요하다. 어쨌든 데이터 과학자라면 데이터가 있어야 일을 할 수 있고, 데이터의 가장 주도적인 사용자이므로, 있는 데이터를 잘 쓸 수 있으면 얼마나 좋겠냐만 그 것으로 부족하다면 그 이후에 필요한 데이터를 만드는 데에는 분석가가 최대한 관여할 수 밖에 없다고 생각한다(그렇지 않으면 필요한데도 안 만들어지는 데이터라든가 사용하기 힘든 형태의 데이터가 왕왕 나올 수 밖에 없고 그러면 결국 가장 고통받는 것은 데이터 과학자일 수밖에 없다).
그리고, 분석가가 하고 싶은-케글 대회 같은 일들- 일만 하고 살기 위해서는 우선 그 회사에서의 데이터가 매우 이상적인 형태로 사용되고 있어야 한다.
나는 흔히 이 것을 회사에 데이터가 흐르게 한다 라고 표현한다.
흔히 말하는 Data governance가 잘 되어 있어서, 데이터가 필요한 형태로 잘 구축되어 있고 접근 권한도 적절하게 부여되어 있으며, 대부분의 사용자들이 데이터를 제대로 가져와서 적절하게 사용할 수 있는 상태. 이 것이 이루어진 회사야 말로 데이터가 제대로 흐르고 있는 곳이며(그래서 여기서도 다시금 외치지만 데이터 엔지니어란 존재는 이를 위해 정말로 소중한 훌륭한 존재입니다. 데이터 과학자에게는 없어서는 안 될 보석같은 존재입니다(강조)), 이런 곳에서는 데이터 과학자들도 뭔가 자신들이 생각했던 -케글 대회 같은- 신나는 일들을 할 수 있을 것이다.
하지만 대부분의 회사들은 이렇지 않고, 각자의 회사들은 각자의 회사 나름대로 데이터가 흐르지 않는 이유들이 있다. 이 것은 회사의 역사라든가 회사의 규모에 따라서 좋고 나쁘고가 없다. 서로 다른 이유로 데이터가 막혀 있을 뿐이다. 그리고 이렇게 데이터가 막혀 있는 곳에서는, 결국 데이터를 활용해서 무언가를 하기 위해서는 그 사이에서 데이터가 흐르게 길을 만드는 작업을 해야 한다. 물리적으로든, 논리적으로든. 그리고 그 과정은 많은 데이터 과학자가 꿈꾸던 길은 아니다. 다른 데에서 경험해 보았더라도 다시 하고 싶은 일은 아니다. 하지만 이렇게 데이터가 흐르지 않는 곳에서는 자신이 하고 싶은 일을 한다고 하더라도 그 일이 끝까지 제대로 도달하기는 쉽지 않을 것이다. 간단한 통계 수치를 보기도 어려운 곳에서 멋진 모델링을 한다고 해서 그 모델이 끝까지 제대로 제품에 실릴 수 있을까. 많은 곳에서 데이터를 사용하고 싶어하는데 그 프로세스가 잡히지 않은 상태에서 데이터를 보는 사람들이 그런 요청을 무시하고 본인의 일만 할 수 있을까. 혹여라도 여러 모로 지원이 잘 되어서 멋진 모델링에 집중하고, 그 모델이 서비스에 실렸다고 하더라도 그 모델이 잘 개선이 되고, 데이터가 계속 잘 들어가고, 그 것에 대해서 인정받고 지속 가능할 수 있을까. 과연 언제까지.
믿고 싶지 않겠지만, 다시금 이야기하니, 현실을 직시하자.
데이터는 단순한 숫자가 아니다
케글의 데이터들은 사실 굉장히 단순하고, 이해하기 쉽다. 내용도 대부분 평면적이고, 중간에 복잡한 예외사항 같은 것은 거의 들어있지 않다. 하지만 현실은 그렇지 않다.
대부분의 데이터는 각자의 이유로 지저분하고, 각각의 데이터에는 회사와 고객의 이야기가 그대로 녹아있다. 예외사항은 한가득 있고, 같은 슈퍼마켓이라고 하더라도 거기서 남기는 데이터의 형태는 다르다.
그래서 데이터 분석에서는 데이터 전처리가 80%라는 이야기를 끊임없이 하고, 그 전처리도 단순한 스케일링과 포맷 맞추기 뿐만이 아니라 데이터에 대해서 왜 이렇게 남아야 했는지, 어떤 식의 결과가 필요한 지에 대해 실제로 사용하는 타 부서와의 끝없는 커뮤니케이션이 필요하다. 아마도 이 것은 많은 데이터 과학자들이 생각을 못했을 것이고, 왜 우리 회사는 데이터는 이렇고 요구사항은 이런가 하면서 한숨을 쉴 것이다. 하지만 이 것이 현실이고, 이 것이 실제의 데이터고, 어쨌든 데이터는 일단 흘러야 하고, 아무도 당신이 원하는 데이터를 짠 하고 만들어주지는 않는다.
그러니까, 현실과 이상은 다르다.
분석과 현업의 이야기
앞의 이야기가 주니어 데이터 과학자들에게 조금 더 많이 필요한 이야기였다면, 이 부분은 이제 조금 시니어가 된 데이터 과학자라든가, 아니면 주니어라도 위에 데이터 분석 쪽으로 케어해 줄 사람이 아무도 없는 경우에 조금 더 많이 와닿는 이야기이다. 어쨌든 데이터 과학자들이 일하는 곳은 현업이다. 현업에서의 데이터 과학이 시작된 것은, 그 흔히 말하는 거품이 끼기 뱅만년쯤 전인 20세기고, 그 때 가장 먼저 필요로 했던 곳은 비즈니스에서의 의사 결정을 위한 것이었다. 그리고 사실 지금의 훌륭하고 아름다운, 이제는 AI라고까지 말하는 일에서도 최종적으로는 비즈니스의 발전 및 의사 결정을 위한 것으로 수렴한다. 추천 모델? 챗봇? 그런 것은 전혀 그렇지 않을 것 같지만 결론적으로는 이 것이 얼마나 우리의 비즈니스에 효과적인가로 결과가 결정된다. 어쨌든 비즈니스란 고객을 만족시켜야 하는 조직이며, 고객 만족은 최종적으로는 매출과, 혹은 ‘만족’에 대한 척도로 판단되고, 그 척도를 결정하는 것은 결국 의사결정자다.
그래서 어느 정도의 시니어 데이터 과학자에게는, 결국 그런 척도를 어느 정도 제대로 볼 수 있도록 설득시키고, 데이터를 잘 흐를 수 있도록 (논리적으로) 설득시키는 능력이 필요하다. 주니어 데이터 과학자가 이상과 현실의 괴리에서 떨어져 나간다면, 시니어 데이터 과학자에게는 이상과 현실의 괴리에서 이미 충분히 쌓인 피로감에, 논리적으로 데이터를 흐르게 하기 위한 설득에서 얻는 피로감에 떨어져 나간다. 어쨌든 데이터 과학자가 현업을 설득한다는 것은, 참모가 리더를 설득하는 것인데, 참모가 리더의 서포터로만 남아주기를 바라는 리더들이 세상에는 넘치고 깔렸으며, 그것도 자신의 생각과 데이터라는 ‘팩트’가 일치하지 않다고 설득당하는 것은 솔직히 유쾌한 일은 아니리라.
그래서 많은 리더들은 요즘에 ‘데이터’를 열심히 외치면서도, 남이 ‘데이터’로 설득하거나, 자신이 생각하지 못한 ‘데이터로 무언가를 하는 것’에 대해서는 그다지 즐거워하지 않는다. 그래서 ‘현업은 그렇지 않다’라고 무시하거나, ‘이건 이래서 사용하고 싶지 않다’ 라거나, 갑자기 다른 것을 제시하거나, 혹은 아예 요즘 흔히 말하는 BA를 두고 해당 부서에서는 알아서 데이터를 컨트롤하거나(데이터를 흐르게 하는 한 가지 방법이기는 하다(웃음). 이런 경우 종종 일어나는 경우에 대해서는 이 글을 참고하자).
물론, 아주 고학력자고 전문 분야가 확실해서 그 분야에 대해서 고급 분석을 해달라고 요청해서 일을 하게 된 경우도 있다. 그런 경우는 예상하는 일을 (처음에는) 하게 될 가능성이 많다. 하지만 그렇게 된 일이 실제로 제대로 움직이지 않고, 하지만 이런 경우는 계속 일은 해야 하니까, 어떤 섬같은 존재가 되어 버릴 가능성이 높다. 이런 경우는 회사고 본인이고 서로 원하지 않을 것이다. 어쨌든 본인이 아는 지식을 사용하는 것이 아니라, 그 회사에서 데이터로 움직이는 일을 하고 싶었다면 그다지 재미가 없을 테니까(하지만 그마저도 좀 부럽기도 하다)혹은 재미도 있고 본인이 만족한다면 물론 괜찮겠지만, 그저 그런 상태가 계속 되기를 빌어줄 뿐이다.
데이터 팀/ 각 부서의 데이터 파견에 대해서
아무래도 데이터 팀이 따로 있다 보면 현업이나 적재적소에서 데이터가 제대로 흐르지 않는 경우 이에 대해서 실질적인 데이터를 전달하는 데에 한계가 있을 수 밖에 없다. 그러다보니 많은 조직에서는 데이터 팀 해체 및 파견 등에 대해서 이야기를 한다. 특히 데이터로 주목받았던 링크드인이 데이터 팀을 해체(?)하면서 이 방식이 보다 더 주목을 받았지만, 그 이후에 그 방법이 더 좋았다고는 아무도 이야기하지 않는다. 물론 각각의 방식에는 각각의 장단점이 있다. 일단 데이터 팀이 따로 있으면, 무언가 data product나 data service를 만들어내기 좋고, 데이터 관련해서 이야기가 일원화되므로 회사에서 데이터에 대한 중복작업을 덜 수 있으며 요청의 우선순위 정도도 정하기 편해진다. 특히 여러 데이터를 한 번에 조합해서 다루기 위해서는 데이터에 대한 이야기가 한 곳에서 이루어져야 한다. 하지만 이로 인해서 데이터에 대해서 이야기할 때는 현업에서 원하는 스피드가 나오기 어렵고, 협업해야 하는 단계가 늘어나서 번거롭기도 하다. 그러면서 데이터 팀에서도 현업에서 제대로 원하는 것을 정확히 파악하지 못하는 경우가 발생하기도 한다.
그래서 이를 위해서 현업과 데이터 팀을 붙이고자 하는 많은 시도가 있었고, 그러면서 가장 무난하게 시도되었던 것이 데이터 팀원들을 각각 현업 팀에 파견을 보내는 식으로 하는 것이다. 하지만 이런 경우가 제대로 돌아갈 리 없다. 데이터 팀원은 혼자고, 현업 팀에 영향력을 크게 미치기도 어렵다. 심지어 데이터 관련 일의 역사는 대부분 짧고, 많은 경우 데이터 과학자들은 연차가 낮고, 리더에게 여러 모로 눌리기 일쑤다. 그런 경우 할 수 있는 것은 역시 현재의 BA와 유사한 역할이다. 아니면 아예 데이터를 조금 볼 줄 아는 현업의 역할을 하거나. 이런 경우 그 현업 팀은 조금 나아질 지도 모르겠지만, 데이터 일을 하는 사람들에게는 그다지 좋은 환경일 리 없다.
그래서 결국 데이터 팀에서는 자신들의 향상과 회사의 향상을 동시에 도모하기 위해서는 조금 더 번거로운 일들도 같이 할 수밖에 없다. 이에 대해는 역시 이전에 생각을 정리한 적이 있다.
데이터에 대해 다들 많이 아는 것에 대한 이야기
사실 이제는 데이터에 대해서 다들 많이 공부했고, 다들 많이 안다. 비즈니스고, 개발이고, 데이터 분석가고, 데이터 관련 개발자고, 데이터 분석으로 업을 전환한 사람들이고 등등, 다들 데이터에 대해서 많이 알고, 한 마디씩 얹는다.
모르겠다, 내가 실제로 같이 일을 안 해 본 사람들의 경우에는 그 사람들이 그렇게 말을 얹는 것만큼 회사에서 데이터를 잘 흐르게 하고 있고, 그래서 그렇게 잘 활용을 하고 있는지. 하지만 내가 조금이라도 아는 사람들의 경우에는, 그렇게 노력하는 사람들은 오히려 다들 말을 많이 얹지 않는다.
데이터 과학은 어쨌든 공부할 게 많다. 대충 보려면 대충 보기는 쉽고 매우 있어보이지만 그러다보면 잘못 사용하는 경우가 왕왕 있다. 그냥 좋거나 유명한 함수를 적합하지도 않은 데다가 그냥 갖다 붙이는 경우도 부지기수다. 하지만 그 것에 대해서 자세히 살펴보는 경우도 별로 없고, 특히 원하는 경우가 나온다면 더욱 그렇다. 그리고 이런 것에 대해서 설명하면 좋은 소리보다는 피곤한 이야기를 듣는 경우가 더 많다. 그 와중에 이 업계는 거품이 끼었었고 여러 곳에서 유입되는 사람들이 많다보니 너무 쉽게 보고, 가볍게 다루고 싶어하는 이야기가 너무 많이 들린다. 신경을 끄면 되겠지만 끄기 어려울 정도로 그런 말이 너무 많다.
그 와중에 실제로 보면 너무 기본없이 데이터를 사용하려는 경우도 너무 많다. 어떻게 균형을 잡아야 할 지도 모르겠는데 이 것이 일부가 아니라 어디 가서든지 보인다. 사실, 이런 것 이제는 좀 많이 질리고, 이런 일을 10년 넘게 하고 있다 보면 누구든 나가떨어지지 않아도 이상하지 않다. 아무리 알고 있다고 해도 마찬가지다.
데이터 과학자는 물론 현실을 봐야 한다. 하지만 어디까지 포기해야 하는지, 무엇을 위해서 그렇게 노력해야 하는 지에 대해서는 아무도 모른다. 나도 언젠가 케글 대회 같은 일만 신나게 하면서, 그 것이 신나게 돌아가서 정말로 데이터가 널리 사람들을 이롭게 하는 것을 즐겁게 보고 싶다는 생각을 하고, 어떻게 하면 그럴 수 있을까에 대해서 많은 고민을 했지만, 정말로 연구소나, 정말 좋은 회사에 가지 않는 한 데이터 과학자가 ‘과학자’같은 일을 할 수 있을까? 아마도 나를 비롯한 상당수의 데이터 과학자들에게 그런 일은 요원할 것이다. 지금 1x년간 그래왔고, 아마도 n년간 더 그래야 할 것이다. 사실, 그러니까 이 업계는 섹시하기는 커녕 그다지 정신건강에 좋지 않고, 이 업계를 떠나는 것이 훨씬 마음 편한 일이다. 나는 다른 사람들에게도 이 업계에 들어오는 것을 섣불리 권하지 않고, 나도 농담 반 진담 반으로 전직하고 싶다고 노래를 부르곤 한다. 그래서 누가 업계를 떠난다고 해도, 거기에 나는 아무런 말을 할 수 없다. 그냥 뭘 하든지 좋은 길로 갔으면 좋겠다는 말 밖에. 나도 계속 발버둥을 치고는 있지만, 글쎄, 과연 언제까지 어떤 꽃밭을 찾아갈 수 있을 지 알 수 없기도 하다. 그리고 그 곳이 꽃밭같더라도 조금만 시야를 넓혀 보면 조금 다를 지도 모른다. 대부분의 조직이란, 자신이 괜찮다면 어딘가에는 갈려나가는 사람들이 있는 경우가 대부분이다. 비즈니스에서도, 개발에서도 누구나 아는 분야라 전문직인지 전문직이 아닌 지 이제는 잘 모르겠는 데이터 업계는 참으로 그러하다.
하지만, 어쨌든 이 업계에서 아주 조금이나마 길게 있었던 사람으로서 어쩔 수 없이 갖게 되는 부채감이라는 것이 있다. 언제가 될 지 모를 내가 이 업계를 떠나기 전까지는, 조금 더 이야기하고, 조금 더 내 자리에서 내가 할 수 있는 일을 해서, 많은 곳에서 데이터가 조금이라도 더 잘 흐르게 할 수 있도록 노력하고 있다. 이 것은 내 미래를 위해서기도 하고, 좋은 분들이 이 업계에서 떠나지 않게 하고 싶어서이기도 하다. 하지만 그게 언제까지일 지는 나조차도 알 수 없다.