Prologue
정신을 차려보니 뉴욕에서 O’Reilly AI Conference에 참석하고 있는 자신이 있었다. 이것은 평행세계인가.
O’Reilly 주관 Conference에 참석하는 것은 이 번이 세 번째. AI 컨퍼런스는(당연하게도) 처음이다. Data 쪽 기업 컨퍼런스의 선두주자이며 이를 계속 유지하려고 하는 O’Reilly에서 AI에 숟가락을 얹는 것은 넘나 당연한 행보이고, 그래서 예상할 수 있듯이 기존의 Strata Conference에서 데이터 분석 쪽 일부를 그대로 들고 온 것 같은 형태다. 현재는 Strata와 AI 컨퍼런스의 내용이 일부 혼합된 상태지만, 아마 이제 점차 Strata는 기존 Hadoop World때처럼 Data Engineering topic 주축이 되고 기존의 독특한 데이터 분석 관련 내용은 다 이 쪽으로 넘어오지 싶다.
어쩔 수 없다. 최근 AI고 ML이고 열심히 이야기하지만 어차피 기존 분석에서도 암암리에 ML알고리즘은 써왔고 거창하게 AI라고 해도 세상이 그렇게 갑자기 손바닥 뒤집듯이 바뀐 것은 아니니까.
Tutorial
오늘은 Tutorial 이 있는 날이었다. O’Reilly 주관 컨퍼런스에 참석하는 것은 이번이 세 번째지만 튜토리얼에 참석하는 것은 처음이다. 두근두근. (전에 Speaker였을 때는 Tutorial에 아무거나 참석은 할 수 있었지만 미리 신청할 수는 없었고(되었던가? 기억이 나지 않는다), prerequisite 이 있는 경우는 들어가서 삽질하게 되는 것도 있어서 함부로 들어가기가 저어되었으며, 무엇보다 tutorial 다음날이 발표날이어서 어차피 제대로 귀에 들어오지도 않았기 때문에 short talk 모음에 들어가서 구경(?)만 했으므로 실제 Tutorial을 듣는 것은 처음이었다.) 그래서 조금 기대가 되는 것도 없잖아 있었다.
Tutorial은 사전 등록할 때 들을 세션을 선택한다. 그래서 애초에 경황이 없어 등록을 한 나는 제목만 보고 대충 찍었을 뿐이고. 세션은 오전, 오후로 각각 3시간 가량 진행된다.
Scaling machine learning with TensorFlow
Google에서 진행한 TensorFlow관련 튜토리얼이었다. TensorFlow에 대한 간단한 설명과 예제를 보여주고 몇 가지는 Jupyter notebook으로 같이 실행하면서 따라할 수 있도록 한다(라지만 실행하는 것을 보거나 하지는 않고 github 주소 알려주고 코드 앞에서 설명하고 실행은 각자 알아서 하는 식이다).
강의 자료는 여기서 받아볼 수 있다(세부 github코드 및 예제 주소는 강의자료 안에 포함되어 있다).
TensorFlow는 샘플 코드도 돌려보고 몇 가지 과제에서 사용해 보았기 때문에, 여전히 손에 안 붙기는 하지만 내용이 굳이 새로운 것은 아니다. 그래서 애초에도 이 걸 들을까 말까 잠시 생각했던 것도 있고. 하지만 익숙하지 않아서 들었는데, 어차피 이런 곳의 튜토리얼이란 게 다 그렇듯이 딱히 TensorFlow에 대해서 잘 알려주는 것도 아니고, 실습을 빡세게 해서 손에 익을 수 있게 하는 것도 아니다. 실제 실행 레벨은 딱 3시간짜리, 대상 한정하지 않은 세션에서 기대하게 되는 그 정도.
하지만 margenta 프로젝트 등의 존재를 새삼 깨닫고, Tensorboard를 보고 쓸 수 있게 된 것은 나름 괜찮은 수확이고, 무엇보다 가벼운 예제로 음식 배달 추천의 예와 함께 칙힌의 예를 들어주셔서 여러 흥미로운 생각이 들었고, 이 예시에서 설명한, 너무 일반화된 답과 너무 세부적인 답의 적절한 균형을 위해 간단히 예를 들어준 Wide and Deep Model 개념이 넘나 바람직하여 매우 즐거웠다고 한다. 그리고 이를 위해서는 당연히 데이터의 성격을 살펴야 한다는 포인트도. (그러니까 딥러닝에 EDA및 데이터 전처리 필요없다고 자꾸 헛소리하는 이상한 사람들은 역시 멀리 치워야 하는 것이다.)
정말 별 생각 없이 들어갔다가 의외로 즐거운 포인트가 있던 튜토리얼이었다. 중간에 책상 위에 있길래 집어먹은 체리맛 사탕-체리맛을 안 좋아하는데 무심코 집은 사탕이 체리맛이어서 에에..하고 입에 넣었는데 의외로 맛있어서 즐거웠다-같은 세션이었다.
AI for structured business data
이 세션은 정말 꿈도 희망도 없었다. 그냥 라이브러리 기반 튜토리얼만 듣기도 싫고 해서 뭔지 모르고 그냥 신청한 것인데, 이것저것 등록해라 등의 메일만 계속 와서 뭔가 귀찮고, Sponsor course 인가(보통 Sponsor 중심 course는 결론은 자기 회사 광고가 되기 일쑤여서) 싶어서 심드렁하게 들어갔다.
이 세션은 1시간 반씩 나눠서 하고 앞에는 MIT분이 하고 뒤에는 처음 보는 Empirical Systems라는 회사에서 하는 것이었다. 그래서 더욱 의구심만 커지고 멍때리고 들으려고 하는데 강의자료가 딱 뜨는 순간 어라어라 저 이름과 저 연구실 홈페이지는…!!
그러하다 내가 2010년부터 아아아아주 간간히 파오던 BayesDB에 대한 내용이었던 것이다. 그리고 앞에 계시는 분은 그 때부터 논문에 이름을 실어오시던 존잘님 아닌가!!! (동공지진)
거기다가 시작하면서부터 온갖 명언을 쏟아내시는데 와… 눈물이 앞을 가릴 뿐이었다. 내가 맨날 생각하고 짬짬이 하던 말들을 딱딱 정리해 주시는데 진짜… 이건 정말 데이터쪽 실무를 해 보지 않고서는 알 수 없는 발언들이다.
강의자료가 아직 공유가 안 된 관계로 우선 중간중간 받아 적은 말들만 옮겨보자.
(Simple) AI works- only when data is cheap, rules are explicit, success and failure are obvious, errors are inconsequential.
(이 이야기 짠 뜨는 순간 정말 눈물이 앞을 가릴 뻔 했다. 그러하다. 체스나 바둑같은 게임이나, 그림 같이 위험요소가 적고 샘플을 구하기 쉬운 것들이 흥하는 데는 다 이유가 있는 법..)
Conway 의 Data Science Venn Diagram에서 Domain-Programming의 교집합 부분이 danger zone인 데에는 다 이유가 있다. 데이터를 만지고 분석을 하면서 통계나 수학적 지식이 없는 경우 이는 감에 지나지 않고, 무언가 있어보이면 그걸 그대로 사용하게 된다. 실무의 경우에는 아무리 좋은 알고리즘을 사용하더라도 어느 정도는 사람의 감독을 피할 수 없다. AI가 보조자 역할을 하면서 서로 피드백을 받는 관계다. 따라서, 어떤 결과 결정 모델보다는 확률 모델로서 부족한 지식을 보충하는 형태가 일반적으로 무난하다. 그리고 여기서 확률 데이터를 손쉽게 뽑아줄 수 있는 BayesDB 등장. 짜잔.
애초에 베이지안 모델을 좋아라 하던지라 이런 진행은 당연지사 귀에 쏙쏙 들어왔다. 그래서 BayesDB는 작년 Strata발표자료와 별로 달라진 것도 없었지만 두근두근하면서 봤다. 다만 실습용 Jupyter 서버를 열어주었는데 네트워크 상태가 안 좋아서 그냥 진행했던 것이 아쉬웠다.
그리고 중간의 Break time(1차 시간이 끝났다)이 되어서 냉큼 달려가서 질문을 했다 (이럴 때는 쓸데없는 용기가 충만하다). R과 연동해서는 어떤 식으로 쓸 수 있는지(문서 항목을 알려주셨고 확인해 보기로), 기존에 추천 모델에 혹시 사용한 사례가 있는지(따로 없고 우리는 케이스는 따로 모으고 있지 않다 라는 답변을 들었다)를 물어보았고, 발표자분은 내 티셔츠(스타 트렉을 활용한 ‘TRUST DATA, NOT LORE’라는 문구가 있다)를 보고 awesome이라고 해주셨다. 즐거운 시간이었다.
그리고 2차 시간. Empirical Systems는 알고 보니 BayesDB를 만들던 연구실에서 이를 활용해서 데이터를 보다 쉽게 확률적으로 분석할 수 있도록 해주는 시스템을 만든 것이었다. 전반적으로 데이터의 확률 분포와 연관관계를 쉽고 예쁘게 볼 수 있는 것은 참 좋았는데. 아쉽게도 크게 기억에 남지는 않았다.
기타
평소에 뵐 기회가 없었던 아는 분석가 분들도 뵙고, 대학교 졸업 이후에 못 보던 학교 친구도 만났다. 아아 세상은 정말로 좁구나. 신기신기. 저녁 meetup도 신청해 놓았는데 시차 적응 및 간만의 수업과 영어의 여파로 잠시 눈을 붙이고 나니 시간이 넘어서 가지 못했다. 아쉬움.
어쨌든, 해야 할 것, 잊지 말아야 할 것, 알아야 할 것들은 잔뜩 있지만 내가 틀리지는 않다는 믿음은 좀 더 가져도 될 것 같다. 내일부터는 talk들이 있다. 어떤 흥미로운 이야기가 나올 지 기대하고 있다.