잉여의 잉여력 관리(2018 ver.) – feat. Life Cycle

예전에 잉여의 잉여력 관리 라는 주제로 발표도 하고 해당 내용의 포스팅도 한 적이 있다. 벌써 그 것이 2년이 훌쩍 지났다고 한다. 나는 여전히 넘치는 잉여력을 자랑하고 있고, 삶은 여전히 다이나믹하며, 그로 인한 개인 상태 역시 자기 멋대로 날뛴다. 하지만 잉여력은 지속 가능해야 하고, 이를 위해서는 여전히 최소한의 관리가 필요하고, 여전히 최소한으로 신경을 쓰고 있다.

Read More

AI- 과거는 '서막'이다

윤리, 도덕이라는 말은 굉장히 지루하고, 졸리다. 특히 요즘처럼 기술 발전에 신경쓰기도 바쁜 때에 윤리, 법, 이런 것을 챙기는 것은 과거의 유산에 매달리는 것 같고, 기술의 발전을 저해하는 것처럼 느껴지고, 흔히 표현하는 말 대로라면 ‘섹시하지 않다’. 굉장히 고루한, 꼰대가 사회의 변화에 적응하지 못하고 꼬장꼬장하게 버티고 있는 듯한 느낌을 준다.

Read More

Presto 쿼리 실행계획 겉핥기

들어가며

우리는 여러 가지 이유로, 여러 가지 용도에 사용하기 위해 데이터를 조회합니다. 많은 경우 SQL기반의 데이터 처리 엔진에 SQL 을 사용해서 데이터를 조회하게 됩니다. 이 때, 기본적으로 문법에 맞춰서 데이터를 조회하면 데이터가 잘못 나올 일은 극히 드뭅니다. 하지만 간혹 생각과 다른 데이터가 나온다거나, 잘 돌아가는 지를 확인하고 싶은데 쿼리가 무거울 것 같아서 무조건 돌려보기 애매하다거나, 별 것 아닌 쿼리라고 생각했는데 데이터 조회가 오래 걸리거나 하는 일이 발생합니다. 정말 어쩔 수 없는 경우도 있지만, 상당수의 경우는 쿼리를 좀 더 예쁘게 짜면 전반적인 쿼리 성능을 높일 수 있습니다. 이를 위한 작업을 흔히 ‘쿼리 튜닝’이라고 합니다.

Read More

서비스에서의 데이터팀에 대한 단상

11월 초에 모 처에서 ‘서비스에서 다양하게 데이터를 사용하는 법’에 대해서 발표를 했었다. 강의 자료는 오픈하지 않기로 했으므로 오픈하지 않지만, 간단하게 요약하면 다음과 같다

Read More

비즈니스의 AI와 전문가 시스템

요즘 인공지능이 시대의 화두인 것은 두말할 나위가 없다. 추석 연휴 때에 잠시 본 TV에서는 ‘인공지능’ 어쩌고 하는 광고가 10개 넘게 지나갔고, 인공지능 관련 책이 서점에서는 쏟아져 나온다. 하지만 우리의 손에 실질적으로 닿는 인공지능(AI)이란 어떤 것일까. 사실 지금도 Siri같이 바로 옆에서 사용해 볼 수 있는 것도 있고, 우리네가 사용하는 시스템에는 머신 러닝이 적용된 분야도 보이지 않게 많이 있다.

Read More

서비스 분석에서의 대표성

샘플 수가 문제가 아니다.

신문 기사의 설문 통계 기사에서는 표본들을 자세히 보지 않으면 속는다는 이야기를 한다 (실생활에서의 통계 관련 고전 도서인 [새빨간 거짓말, 통계(How to lie with statistics)]에서 가장 먼저 등장하는 사례가 이 예제다(1)).
일반적으로 흔히 이야기하는 부분은 이런 것이다.

Read More

머신 러닝에서 알고리즘 공부를 말할 때 내가 하고 싶은 이야기

AI Conference에서 인상 깊게 들은 talk으로 머신 러닝 계의 전설이 아닌 레전드 피터 노빅느님의 키노트가 있었다. 무수한 딥러닝/머신 러닝 프레임워크들이 등장하면서 AI 프로그램도 공장제;; 가 되었지만 여기서 간과되는 것이, 머신러닝을 일반 프로그래밍처럼 다루게 되는 것이다. 그래서 모델을 프로그램 짜는 양 만들고, 데이터 training을 디버깅마냥, training 반복을 프로그램 패치하는 것과 유사한 개념으로 받아들이게 되는데 실제로 이런 경우 간과하게 되는 것들이 많다는 것이다. 특히 결과가 명확하게 떨어지는(그리고 그렇게 되기를 지향하는) 프로그램들과는 달리, 기본적으로 머신 러닝 알고리즘은 불확실성을 최소화하려고 할 뿐 모든 과정에서 불확실성과 확률이 존재하는데, 이 존재를 고려하지 않는다는 것이다.

Read More

Seniority 에 대한 단상

최근 사람들에게 많이 듣게 되는 이야기 중 하나가 ‘주니어신 줄 알았어요’ ‘어려보인다’, ‘젊게 사시는 것 같다(…)’, ‘그 나이인 줄 몰랐다’ 같은 이야기다. 물론 많은 성인들에게 어려 보인다는 이야기는 칭찬이지만, 보통 내가 하는 대답은 이렇다. ‘아하하. 어리게 봐주시는 건 감사하지만 웬지 그건 제가 철이 없고 허술해서 그런 지도 모르겠네요.’

Read More

스승의 날의 단상

언젠가, TV에서 스타워즈가 방영했다. 조카는 바로 ‘막내 이모- ‘를 외치면서 나에게 이것저것 물어보았고, 나는 이런저런 설명을 해 주었다. 이 이야기를 지인들에게 하면서, 나는 ‘이렇게 알려줄 윗 세대 덕후가 없었어서 매우 힘들었고, 지금도 누군가에게 가르쳐 줄 때 어느 눈높이에 맞춰서 설명을 해주어야 할 지 모르겠다. 물론 가르쳐주려고 노력은 한다. 조카들은 나처럼 삽질하다 잡덕에서 머물지 말고 보다 쉽게 덕후가 될 수 있다면 좋지 않겠는가. 나도 지금이라도 스승이 필요하다!’ 라고 했더니 사람들이 ‘님은 파다완을 들여야지 스승을 찾습니까…‘라고 했다. 하지만 필요하다. 지금도 배움의 길은 늦지 않았을 것이라고 믿고 싶다. 지금은 이것저것 혼자 마구잡이로 파다보니 뭐 하나 제대로 파는 것 없이 모든 데 다 상식선으로 발을 걸쳐놓을 뿐인 이도저도 아닌 영원히 고통받는 잡덕이 되었다.

Read More

머신 러닝, 인공지능, 그리고 데이터

몇 달 전 이 글에서도 언급한 적이 있지만, 인공지능에서 데이터가 왜 필요하냐, 데이터나 통계 하는 사람들은 머신러닝같은 거 나오면 못 쓰게 되지 않냐 하는 질문을 슬금슬금 들어왔고, 최근에는 정말 그 빈도가 매우 높아졌다. 그리고 내 대답은 일정하다. ‘데이터를 사용해서 문제를 풀어서 해답을 찾는 것에서, 최적의 방식은 문제에 따라 다르고, 그 방식을 사용하면 되는 것이라고 생각합니다. 그 방식이 문제에 따라 통계 기법이 될 수도 있고, 알고리즘을 활용한 데이터 마이닝이 될 수도 있습니다. 머신 러닝은 인공지능의 다양한 가지 중 하나이니 크게 보면 인공지능에 포함되기도 합니다. 이런 것들은 서로 맞물려 돌아가고, 어느 정도는 기존에 해왔던 것입니다.’ 라는 것이 내 대답이다.

Read More

서비스의 실험에서의 윤리

실험 윤리, 법과 도덕의 망 안에서 살지만 그다지 윤리적이라고 하기에는 부끄러운 나같은 사람들도 많이 들어봤을 법한 말이다. 하지만 보통 이 말은 화장품 등의 동물 윤리 라든가 혹은 논문 표절 기사 등에서나 다루고, 일반적인 비즈니스 환경에서 들을 일은 없다고 생각될 지도 모르겠다. 하지만 모든 실험은 기본적으로 실험 윤리의 밑바탕에서 이루어져야 하고, 이는 서비스에서도 ‘실험’이란 단어를 사용하게 되면 마찬가지라고 생각한다.

Read More

서비스의 실험에 대한 이해

언제부터인가 ‘A/B 테스트’ 같은 말이 유행하기 시작했고, 많은 서비스에서 ‘실험을 한다’는 말이 자연스럽게 나오게 되었다. 특히 ‘데이터 기반 의사 결정’이 널리 퍼지고, ‘데이터 분석’이 보다 용이해지면서 이런 현상은 더욱 심화되었다. 실제로, 더욱 더 많은 서비스들이 베타 테스트 등의 간단한 실험을 통해서 실제 그 이후의 서비스의 방향-버튼 색 결정부터 기능 추가에 이르기까지-을 결정하는 일이 많아졌다.

Read More

리바이벌 - 믿는 자에게 복이 있나니 시간 가는 줄 모르는 소설이 너희들 것이라

스티븐 킹은 [죽음의 무도]라는 공포 작품 평론서에서 고전 공포 문학 작품들을 분류하고 찬양(?)했던 적이 있다. 메리 셸리, 브람 스토커, 로버트 루이스 스티븐슨. [프랑켄슈타인], [드라큘라], [지킬 박사와 하이드]로 크게 분류를 나누고 거기에 유령 분류를 따로 둔 후 여기서는 셜리 잭슨의 [힐 하우스의 유령]을 언급한다. 그러면서 유령을 정의하면서 ‘자신들을 바라보는 인간들의 욕구와 어쩌면 인간들 마음의 본질까지도 차용한다는 관념’이라고 언급한다.

Read More

데이터로 말하기에서 종종 잊는 것

기업 환경에서 궁극적인 데이터의 목적은 의사 결정이라고들 한다. 이 말은 오래 전 경영학 때부터 지금까지, 기업환경은 무수한 탈바꿈을 하는 와중에도 빳빳하게 목을 치켜들고 존재감을 뽐내고 있다. 물론 기업환경의 변화에 따라 구체적인 활용에 대한 이론도 역시 계속 허물을 벗고 새로운 모습을 뽐내 왔지만, 그 안의 뼈대는 항상 동일하다. 회사의 중요한 수치의 변화를 확인하고, 그것에 대해서 결정을 내리는 것.

Read More

인공지능 시대의 통계의 위치

인공지능 시대의 도래

요즘 인공지능이 대세다. 딥러닝이 여기저기서 언급되기 시작하면서 슬슬 지펴지던 열기는 지난 3월 이세돌과 알파고의 바둑 대결이 이뤄지고, 알파고가 4:1로 이세돌을 이기면서 한층 달아올랐다. 최근 업무 관련해서 사람들과 이야기를 나누다 보면, 전에는 ‘데이터 분석에는 기계 학습(Machine Learning) 을 사용하느냐’, ‘통계와 데이터 마이닝이 뭐가 다르냐, 데이터 분석에는 무엇을 쓰냐’ 등의 질문이었다. 그런데 최근에는 거기에 한 종류가 더 추가되었다. ‘데이터 분석은 인공지능하고 무슨 관계일까’, ‘통계 기법은 인공지능 시대에 뒤떨어진 게 아니냐’ 같은 이야기 들이다.

Read More

데이터로 살펴보는 SF 영화 속 로봇(3)

1편2편에 걸쳐 SF(혹은 Sci-Fi) 영화 속에 나오는 로봇들에 대해서 살펴보기로 했다는 말을 길게 풀고, 실제로 로봇들이 등장하는 추이까지도 같이 서툴게나마 살펴보았다. 사실 저기까지 하는 데에 시간이 많이 소비되기는 했지만(그래서 말도 길었다) 저기서 끝을 내면 웬지 나도 억울하고 글을 보시는 분들도 허무할 것 같으니, 되도 않는 이야기를 더 짜내 보도록 하자. (그리고 다 읽으신 분들은 더 허무하다며 돌을 던질지도…)

Read More

데이터로 살펴보는 SF 영화 속 로봇(2)

앞서 이번 프로젝트의 데이터 획득까지의 과정을 살펴보았다. 다음 단계로, 이렇게 얻은 데이터를 분석 목적에 맞게 가공하는 과정이 필요하다. 애초에 데이터 수집을 목적에 맞춰서 내가 주도해서 한 것이라면 수집 시에 데이터를 잘 가공해 놓을 수 있겠지만 지금은 데이터를 주워와서 쓰는 과정이라, 내 입맛에 맞게 데이터가 만들어져 있지 않다. 데이터 사냥꾼들은 어설프게 비슷한 데이터라도 있으면 감사하게 가져와서 사용해야 할 따름이다.

Read More

코리 닥터로우의 필리버스터 글

이 글은 팬심(?)에서 번역한 아마추어의 글이고 오픈되어 있으므로 링크를 공유하는 것은 상관없습니다. 다만 내용(일부 발췌 포함)을 그대로 사용/공개 시에는 메일/댓글 등등으로 사전 말씀 부탁드립니다.

Read More

데이터로 살펴보는 SF 영화 속 로봇(1)

최근 [스타워즈 7]이 개봉을 했다. 거기에 조연으로 등장한 스타워즈의 단골 로봇 R2-D2나, 이번 시퀄부터 등장한 BB-8같은 귀여운 로봇은 화제도 얻고 장난감으로 나와서 절찬리에 팔리기까지 했다. 어디 이 뿐이랴. 많은 Sci-Fi 영화에는 대부분 로봇(혹은 인공지능)이 조연으로, 혹은 악당으로 등장해서 화제를 불러일으킨다. [인터스텔라]에는 TARS가 있었고, [그녀]에는 사만다가 있었다.

Read More

데이터로 취미생활 관리하기 - 독서 편

나는 업이 데이터를 보는 사람이다보니, 업 외의 일반 생활에서까지 데이터를 활용하는 것을 반은 의도적으로, 반은 귀찮아서 꺼리는 편이다. 아무래도, 평소 생활에서까지 너무 데이터 중심으로 살다 보면 시야가 좁아질 수도 있으며 일에 대한 흥미가 감소할 수도 있다는 이유, 그리고 그런 수치가 줄 수 있는 스트레스를 방지하고자 하는 이유에서다. 일상에서의 숫자 관리를 얼마나 안 하냐면, 나는 그 흔하디 흔한 체중 기록도 잘 하지 않는다.

Read More

에반게리온 신칸센 탑승자를 위한 안내서

몇 달 전, 일본에서 에반게리온 신칸센이 나온다는 기사를 보았다. 그것을 보고 마침 휴가가 남아서 어디든 떠나고 싶었던 나는 ‘어머 이건 타야 해.’ 를 외치면서, 일본어를 하나도 못 함에도 불구하고 기사 및 무수한 웹사이트를 구글 번역기를 돌려가면서 자세한 정체 및 탑승 신청 방법을 알아냈다(정리 내용 링크). 그리고 넘치는 잉여력과 몇 안 되는 본인의 장점 중 하나인 실행력으로 1달간 매일같이 신청을 했고, 결국 칵핏에 탈 수 있는 A상 당첨 메일을 받게 되었다.

Read More

개인 정보 바로 알기

사회적으로 ‘데이터’에 대한 이슈와 가능성이 많이 알려지면서 데이터를 어떻게 활용해야 하고 어디에 쓰면 되고 등의 이야기가 많이 거론되고, 이에 대한 관심도 높아졌다. 그리고 그러면서 데이터가 더욱 풍부하게 사용되는 미래에 대한 여러가지 관점이 나타난다. 혹자는 보다 편리한 장밋빛 미래를 꿈꾸기도 하고, 혹자는 [1984]의 ‘빅브라더’가 실재할 것이라고 두려워하기도 한다. 그러면서 데이터가 ‘양날의 검’과 같다는 점에 대해서는 많은 사람들이 동의한다. 하지만, 데이터가 가져다 줄 미래에 대해서는 많은 사람들이 다양한 생각을 하지만, 보다 본질적으로 그런 미래에 그런 모습을 만드는 데에 어떤 데이터가 필요한지에 대해서는 모호하게 생하고, 그런 미래가 자신에게 어떤 영향을 줄 지에 대해서는 막연하게나마 동경하거나 두려워하면서, 그런 모습이 자신의 어떤 정보-데이터를 가져다 쓰는 지에 대해서는 ‘그냥 모든 걸 다 기록하겠지’ 라면서 반쯤 포기한 상태로 시니컬하게 이야기곤 할 뿐이다. 그리고 그러면서도 어쩌다 개인정보가 이슈가 되면 ‘너희가 왜 그런 정보까지 다 기록하냐’, ‘내 정보가 언제 이렇게 샜냐’ 라며 [1984]나 [멋진 신세계]등의 유명한 디스토피아 문학을 들먹인다.

Read More

The thrilling adventures of LOVELACE and BABBAGE

‘러브레이스와 배비지가 분석 엔진(차등기계(difference engine)라고도 알려짐. 컴퓨터의 초기 모형)을 만든 이야기에 대한 게 그래픽 노블로 나왔다’라는 사실을 어디선가 접하고 울고 있었는데, 마침 컨퍼런스차 영국에 갈 일이 생겼다. 그리고 런던서 뵌 모 님께서는 영국의 거대한 서점 Foyles를 알려주시면서 ‘러브레이스 책 있는 건 확인했고요…‘라는 뽐뿌 멘트를 잊지 않고 날려주셨다. 그리고 가서 무려 그래픽 메인 진열대 한 가운데에 쌓여있는 이 책을 보는 순간 ‘Lovely!’를 외치면서 바로 계산대로 고고씽. ‘해외에서 책은 절대 사지 말자’라던 신념이 그대로 무너지는 순간이었다. So it goes.

Read More

데이터 계산 언어로서의 R

업무에서 주로 R을 사용하고, R 번역서를 두 권 냈음에도 불구하고, R이라는 언어에 대해서는 항상 의구심과 애증이 존재한다. 다른 프로그래밍 언어와는 좀 다르다보니, 이게 관점에 따라서는 불완전하다는 느낌도 들고, 지저분하다는 느낌도 들며, 특히 다른 프로그래밍언어의 개념에 조금이라도 익숙하다면 불편하고 답답하기 그지 없어진다. 그래서 이제는 굉장히 보편화되었음에도 불구하고, R에 대해서는 여전히 찬반양론도 높고 다른 프로그래밍언어로 웬만한 계산을 처리하고 싶어하는 경우도 많다.

Read More

R에서 GOOGLE ANALYTICS 데이터 사용하기

개요

Google Analytics(이하 GA)는 요즘 손쉽고 깔끔하게 웹 및 모바일 통계를 (대부분) 무료로 볼 수 있는 매우 근사하고, 덕분에 매우 각광받는 서비스다. 각설하고, 개인적으로도 이 서비스를 매우 좋아하는 바로 책도 보고 교육도 듣고(이 사이트의 어딘가에 교육 중 하나의 후기도 있다) 했지만, 그래도 대쉬보드에서 데이터를 보는 데에는 한계가 있고, 저 데이터를 받아서 내 멋대로 사용할 수 없을까 하는 생각도 했다. 물론 excel 다운로드 등을 제공하지만 원하는 수치들을 매번 받아서 R 시스템에 업로드해서 사용하는 일은 매우 번거로운 작업이다.

Read More