데이터를 엮는 사람들, 데이터 과학자-출간 후기
Read More대화형 인공지능 시대.. 데이터 과학자는 살아남을 수 있을까요?
1월 COMMIT 발표 후기
Read More가트너 하이프 사이클로 살펴보는 2023년 데이터 업계 트렌드
2022년의 후일담
Read More2022년의 땡땡땡
2022년 책 결산
Read More2022년 영상(영화 등) 결산
Read More202210~202212 책 리뷰
Read MoreDDP를 말할 때 같이 고려해 볼 것들(3)
DDP를 말할 때 같이 고려해 볼 것들(2)
Read More202207~202209 책 리뷰
Read MoreDDP를 말할 때 같이 고려해 볼 것들(1)
데이터를 흐르게 한다, 데이터 거버넌스를 한다, 사내에서 데이터를 더 적극적으로 쓰게 한다 등등의 데이터 정책에 관련된 이야기를 할 때, 혹은 이렇게 묵직한(?) 주제까지 가지 않더라도, ‘데이터 찾기가 너무 어려워요’ 할 때, ‘데이터 명세서’ 는 늘 언급되고는 한다. 그리고 기술이 어느 정도 발전한 오늘날에는, 이 ‘데이터 명세서’도 보다 업그레이드된 형태로도 쓸 수 있다. DDP(Data Discovery Platform)라는 것이 이 일환으로 생겨난 것 중 하나다.
<파이썬을 활용한 베이지안 통계(2판)> 번역 후기
Read More2022년 상반기 후일담
Read More202204~202206 책 리뷰
Read More가명정보와 익명정보
2020년 8월 5일 부터 개인정보보호법, 신용정보법, 정보통신망법(데이터 3법)에 근거하여 금융회사, 상거래 기업 등이 개인정보를 가명정보, 익명정보화 해서 안전하게 거래하고 활용할 수 있게 되었다.
202201~202203 책 리뷰
Read More제주 올레 후기
데이터란 무엇인가
데이터 실험에서의 실험자 편향
Read More2021년 가트너 Data Science hype graph에 등장한 용어들
Read More2021년의 후일담
2021년의 땡땡땡
2021년 책 결산
Read More2021년 영상(영화 등) 결산
202110~202112 책 리뷰
Read More의사 결정 과학 - Back to the Basics
202107~202109 책 리뷰
<데이터 분석가의 숫자유감> 책 출간에 부쳐
‘사주가 통계’라는 웃기지도 않는 아무말
2021 상반기 후일담
202104~202106 책 리뷰
<데이터 분석가의 숫자 유감> 연재 12화
<데이터 분석가의 숫자 유감> 연재 11화
<데이터 분석가의 숫자 유감> 연재 10화
202101~202103 책 리뷰
<데이터 분석가의 숫자 유감> 연재 9화
<데이터 분석가의 숫자 유감> 연재 8화
<데이터 분석가의 숫자 유감> 연재 7화
<데이터 분석가의 숫자 유감> 연재 6화
<데이터 분석가의 숫자 유감> 연재 5화
<데이터 분석가의 숫자 유감> 연재 4화
2020년 회고
2020년의 땡땡땡
2020년 올해의 책
2020년 영상(영화 등) 결산
202010~202012 책 리뷰 (~2020-12-25)
<데이터 분석가의 숫자 유감> 연재 3화
<데이터 분석가의 숫자 유감> 연재 2화
<데이터 분석가의 숫자 유감> 연재 1화
202007~202009 책 리뷰
좀비 통계 서바이벌 가이드
‘좀비 통계(Zombie stat)’라는 말이 있다. 어디선가 나왔다고 전해지는 수치가 끝없이 이어지면서 ‘사실’로 굳어지며 여기저기서 사용되는 현상이다. 보통 사람들이 필요로 하거나, 고정관념을 더욱 견고하게 만들어주는 용도로 사용된다. 이런 말에 ‘근거’가 되는 통계수치가 붙고 수치가 추가되면 그 말이 사람들의 머릿속에 더욱 깊이 박히게 되고, 그 말이 근거가 없다고 아무리 설명해도 잠시 주춤하는 듯 하다가 또 어느 때에 시점과 상관없이 망령처럼 되살아나서, 그 현상을 바라보는 사람들의 뇌를 좀먹는다. 그리고 이 것은 ‘통계’라며 ‘사실’이라고 이야기한다. 그 통계가 이 시점에서는 이미 죽은 존재인 것도 깨닫지 못한다. 아니, 특정 시점에서 죽은 통계면 오히려 다행이다. 요즘은 사설 위키같은 커뮤니티나 SNS같은 데에서 누군가가 비유로 사용하거나, 출처가 알 수 없는 말도 ‘팩트’라는 이름으로 여기저기에 인용된다. ‘아인슈타인이 사람은 평생 두뇌의 10%만 사용한다고 했다’(1)같이 사실이 아닌 출처도 숫자와 출처의 무게로 지금까지 도시 전설이 되어가고 있지 않은가. 여기서의 숫자가 통계 수치가 되면 좀비 통계가 된다.
데이터 분석가의 재능과 능력치
간혹 잊을 만하면 SNS를 타고 나오는 이야기 중 하나가 ‘재능’에 대한 이야기다. 타고난 재능, 애매한 재능, 혹은 재능이 없는 것과 자신의 일에 대한 이야기.
같이 일할 동료를 찾아요
2021-07-01 ver.
이 글은 더 이상 유효하지 않습니다. 하지만 나중에 도움이 될까 하여 글을 닫지는 않습니다.
2020년 상반기 후일담
202004~202006 책 리뷰
딥러닝과 바둑-번역 후기
질의(Query)에 관하여
(부제: 정보의 자유에 대한 사담)
데이터셋을 만들고 모델링까지 한 번에 할 수 있지만 (feat. BQML)
구글에서 움파룸파를 시켜서 만든 것 같은 BigQuery에서 모델링까지 한 번에 해서 예측 결과 저장까지 가능하도록 만든 BQML (BigQuery Machine Learning framework) 을 내놓았다. 이런 게 있다는 것 정도만 알고 있다가 최근 모델링 고민을 하다가 BQML을 한 번 써보았다. 물론 실제 업무는 아니고 가볍게 돌려본 정도다.
202001~202003 책 리뷰
다시 찾아간 지표의 세계
Read More신림동 캐리의 스타트업 고인물 1 (권정민 데이터과학자 인터뷰)
예전에도 공개될 뻔하다 망한 인터뷰가 두어번 있었으나, 어쨌든 공개된 것으로는 처음인 것 같다. 단독 인터뷰라니(!). 그래서 슬쩍 퍼왔다. (물론 인터뷰 전에 인터뷰어의 허락을 득하였다)
3년 후, 다시 만난 기능 공장
CCPA에 대응하는 구글 데이터 서비스 사용자의 자세
템플스테이에 대한 소고
2019년을 보내며
2019년의 땡땡땡
2019년 책 결산
2019년 영화 결산
201909-201912 책 로그
포드 v 페라리 를 본 후의 개인적 잡설
Google BigQuery 쉽게 쓰게 하기 (feat. ARRAY)
서두용 아무말
R 3.5.0~ 버전에서 패키지 업데이트 블라블라 문제가 있었던 사람들을 위한 후일담
201905-201908 책 로그
데이터를 보는 사람에게 추천하는 교양서
(공지)댓글 시스템을 바꾸었습니다.
처음 여기로 블로그를 이전하고 댓글이 있는 게 좋겠다 싶어서 disqus의 댓글을 달았다. 그러다가 어느 날 부터인가 광고가 너무 많아지고 그 것을 조절할 방도도 없어져서 (최저로 해도 답이 없는 수준이었다) 페이스북 댓글을 달았다. 그러던 와중 한 분이 메일로 댓글이 이상하게 달리고 있다는 제보를 주셨다(실명을 실을까 하다가 실례일까 싶어서 실명은 달지 않습니다. 혹시 이 글을 보시고 말씀 주시면 글을 수정하도록 하겠습니다.).
확인해보니 실제로 댓글을 하나만 써도 모든 글에 동일하게 댓글이 달렸다. 이전에 테스트할 때는 안 그랬는데 원인을 찾기도 쉽지 않아서 고민을 하면서 댓글 시스템을 뒤적거리던 중에, Outsider님이 쓰신 utterances 글을 보았다. 마침 어차피 깃헙 블로그를 쓰기도 하니 쓰기 어렵지 않을 것 같고 댓글 달리는 모양이 예뻐서(…) 바꿔보았다. 시스템이 아주 약간 바뀌어서 저 글의 내용과 다소 달라지기는 했다.
현재(2019년 8월 15일 기준) utterances 댓글을 다는 방법은 다음과 같다. (사실 utterances 페이지 에 다 나와있다. 확인차..)
- 빈 public repository를 만든다. 아무 이름이나 상관없고 저는 blog_repo라는 무의미한 이름을 썼다.
- 해당 repository에 utterance app을 설치한다. (어려울 것 없고 https://github.com/apps/utterances에서 시키는 대로 하면 된다 )
- utterance 페이지에 repo 주소를 적는다.
- 블로그 댓글이 해당 저장소에 이슈가 되어서 달리는 형태므로 각 포스팅과 이슈를 어떤 식으로 연결할 지를 설정할 수 있다. (아싸님 원글 참고) 여기서는 심플하게 글 별로 이슈를 연결하는 형태로 했다.
- 추가 label이나 theme 을 선택할 수 있다. (3-5 부분은 태그 수정 용으로 보이므로 태그에 직접 입력을 해도 되겠지만 일단 깔끔하고 편하다)
- 페이지 하단에 생성된 태그를 긁어다가 블로그의 댓글 태그를 대체한다.
그러면 예쁘고 깔끔한 깃헙 이슈 형태 태그가 생성됩니다 빠밤.
전에 댓글 달아주신 분들께는 죄송하지만 댓글은 다 읽고 캡처해서 저장해 두었습니다. 양해 부탁드리며 앞으로도 잘 부탁드립니다.
2019년 상반기 회고
사회통계학 관점에서의 A/B 테스트
이전에 실무에서 트랜잭션이나 로그 관련 데이터로 분석을 시작한 지 얼마 되지 않았을 때는 이에 대해서 찾아볼 자료도 그다지 많지 않았고 지금처럼 실무 사례나 방법론도 다양하지 않았다. 그래서 그나마 설문이나 극히 적은 데이터로 분석을 하던 분야의 이론들도 같이 살펴봤고 그 때 어설프게나마 접했던 것이 사회조사분석론이었다.
201901-201904 책 로그
새로운 데이터 분석가와의 랑데부를 위하여(2)
(이 글 에서 이어집니다)
새로운 데이터 분석가와의 랑데부를 위하여(1)
같이 일할 후보(여기서 후보는 어떤 팀이기도 하고 내가 속한 팀과 같이 일할 대상이기도 하다)와의 랑데부를 위해서 우리는 사전에 서로의 궤도를 확인하고 맞춰보는 일을 한다. (서류 검토 절차를 넘어간 경우) 이는 일반적인 경우 ‘면접’ 혹은 ‘인터뷰’라는 말로 대표되기 마련이다. 보통 나의 경우 랑데부 검토의 데상은 같은 업을 하는 데이터 분석가, 혹은 데이터 관련 엔지니어나 매니저, 일반 매니저 직책의 사람이다.
추천 서비스를 말할 때 내가 하고 싶은 이야기
데이터를 다루는 사람이고, 주로 서비스의 데이터 분석을 하다 보니 데이터를 서비스에서 직접적으로 활용하는 것에 대해서도 항상 고민을 했어야 했고, 그러다보면 ‘추천’ 이야기를 심심찮게 듣게 된다. 아니, 사실 실제로 다루기도 했던 것도 사실이다.
세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (3/3)
이 글은 구글의 Chief Data Scientist인 Cassie Kozyrkov의 글(Part 1, Part 2)을 저자의 허가 하에 번역했다. 그림 및 링크는 모두 저자가 제공한 내용을 그대로 사용하였으며, 본 번역 내용은 저자의 번역 글 블로그에도 게재될 예정이다. 이 내용은 세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (1/3), 세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (2/3)에 이어지는 글이다.
세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (2/3)
이 글은 구글의 Chief Data Scientist인 Cassie Kozyrkov의 글(Part 1, Part 2)을 저자의 허가 하에 번역한 것으로, 번역 본의 약 2/3에 해당하는 내용이다. 그림 및 링크는 모두 저자가 제공한 내용을 그대로 사용하였으며, 본 번역 내용은 저자의 번역 글 블로그에도 게재 예정이다. 이 내용은 세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (1/3)에 이어지는 글이다.
세상에서 가장 이해받지 못하는 영웅, 데이터 과학자 (1/3)
이 글은 구글의 Chief Data Scientist인 Cassie Kozyrkov의 글(Part 1, Part 2)을 저자의 허가 하에 번역한 것으로, 번역 본의 약 1/3에 해당하는 내용이다. 그림 및 링크는 모두 저자가 제공한 내용을 그대로 사용하였으며, 본 번역 내용은 저자의 번역 글 블로그에도 게재되었다.
2018년 회고
2018년의 땡땡땡
2018년 영화 결산
2018년 책 결산
201810-201812 책 로그
데이터 윤리를 위한 데이터 추상화 개요
이 글을 보시는 분들에게 ‘데이터’의 필요성에 대해 굳이 설명해야 할 필요가 있을까. 이제는 ‘데이터’라는 단어는 거의 일상용어에 가깝다. 데이터는 많은 곳에서, 다각도로 더욱 더 자세하게 활용되고 있고, 사람들은 데이터를 통해서 더욱 더 많은 것을 알기를 원하며, 이를 통해서 많은 것들을 판단하려고 한다. 그리고 판단을 위한 근거로, 혹은 호기심으로 더욱 더 자세히 데이터를 들여다 보려고 한다. 그리고 이를 위해서 데이터는 최대한 많이 기록하고 저장해 두려고 한다.
제주 올레 후기
수많은 도보 여행자를 위한 길 중 가장 유명한 코스. 제주도 주위 및 일부 섬을 두르는 길로, 점차점차 늘어나서 어느 덧 26개로 늘어났음(대체 돌아도 돌아도 !)
201807-201809 책 로그
근방에 히어로가 너무 많사오니-슈퍼히어로도 우리 민족이었어
슈퍼히어로 어디서 뭐하나, 저런 사람 안 잡아가고.
집중 참선 기간을 보냈던 이야기
사실 이 글은 1월에 조금 마음이 힘들었을 때 썼다. 왜 오픈을 안 했는지는 모르겠지만, 아마도 지금 다시 읽어보고 오픈을 하라는 일종의 예지였을 것이다. 지금은 그 때처럼 그렇지는 않지만, 여러 가지로 혼란스럽고 조금은 불안하다. 다양한 답없는 고민을 한다. 여기는 어디, 나는 누구, 나의 길은 어디. 하지만, 아마도 괜찮을 것이다.
Data.Community.Diversity.
지난 달 호주에서 R 컨퍼런스인 UseR!에 참석했다. (언젠가 아마도 UseR!에 대해 따로 후기를 쓰겠지만) 이 컨퍼런스에서 가장 인상적이었던 점 중의 하나는 커뮤니티에 대한 강조였다. R은 오픈 소스기는 하지만 Apache Software Foundation 등의 어떤 운영 주체가 따로 있지는 않다(물론 지금은 가장 많은 영향력을 가지고 있는 것은 RStudio 라는 회사지만 R에 대한 개발 및 프로젝트를 주도한다고 보기는 어렵다).
잉여의 잉여력 관리(2018 ver.) – feat. Life Cycle
예전에 잉여의 잉여력 관리 라는 주제로 발표도 하고 해당 내용의 포스팅도 한 적이 있다. 벌써 그 것이 2년이 훌쩍 지났다고 한다. 나는 여전히 넘치는 잉여력을 자랑하고 있고, 삶은 여전히 다이나믹하며, 그로 인한 개인 상태 역시 자기 멋대로 날뛴다. 하지만 잉여력은 지속 가능해야 하고, 이를 위해서는 여전히 최소한의 관리가 필요하고, 여전히 최소한으로 신경을 쓰고 있다.
201804-201806 책 로그
업계를 떠나는 데이터 과학자의 마음에 대한 소고
물론 제목은 약간의 낚시이며 내가 당장 업계를 떠난다는 것은 당연히 아니다(여러분 저는 프롤레타리아고 일단 입에 풀칠을 하고 살아야 한다(주먹울음)). 하지만 한 번은 이런 것에 대한 이야기를 하고 싶었다.
AI- 과거는 '서막'이다
윤리, 도덕이라는 말은 굉장히 지루하고, 졸리다. 특히 요즘처럼 기술 발전에 신경쓰기도 바쁜 때에 윤리, 법, 이런 것을 챙기는 것은 과거의 유산에 매달리는 것 같고, 기술의 발전을 저해하는 것처럼 느껴지고, 흔히 표현하는 말 대로라면 ‘섹시하지 않다’. 굉장히 고루한, 꼰대가 사회의 변화에 적응하지 못하고 꼬장꼬장하게 버티고 있는 듯한 느낌을 준다.
201801-201803 책 로그
2018. 아이슬란드 여행 후기
- 기간: 2018년 2월 10일~2월 17일 (6박 8일)
2017년의 회고
2017년의 땡땡땡
2017년 책 결산
201710-201712 책 로그
2017년 영화 결산
Presto 쿼리 실행계획 겉핥기
들어가며
우리는 여러 가지 이유로, 여러 가지 용도에 사용하기 위해 데이터를 조회합니다. 많은 경우 SQL기반의 데이터 처리 엔진에 SQL 을 사용해서 데이터를 조회하게 됩니다. 이 때, 기본적으로 문법에 맞춰서 데이터를 조회하면 데이터가 잘못 나올 일은 극히 드뭅니다. 하지만 간혹 생각과 다른 데이터가 나온다거나, 잘 돌아가는 지를 확인하고 싶은데 쿼리가 무거울 것 같아서 무조건 돌려보기 애매하다거나, 별 것 아닌 쿼리라고 생각했는데 데이터 조회가 오래 걸리거나 하는 일이 발생합니다. 정말 어쩔 수 없는 경우도 있지만, 상당수의 경우는 쿼리를 좀 더 예쁘게 짜면 전반적인 쿼리 성능을 높일 수 있습니다. 이를 위한 작업을 흔히 ‘쿼리 튜닝’이라고 합니다.
서비스에서의 데이터팀에 대한 단상
11월 초에 모 처에서 ‘서비스에서 다양하게 데이터를 사용하는 법’에 대해서 발표를 했었다. 강의 자료는 오픈하지 않기로 했으므로 오픈하지 않지만, 간단하게 요약하면 다음과 같다
비즈니스의 AI와 전문가 시스템
요즘 인공지능이 시대의 화두인 것은 두말할 나위가 없다. 추석 연휴 때에 잠시 본 TV에서는 ‘인공지능’ 어쩌고 하는 광고가 10개 넘게 지나갔고, 인공지능 관련 책이 서점에서는 쏟아져 나온다. 하지만 우리의 손에 실질적으로 닿는 인공지능(AI)이란 어떤 것일까. 사실 지금도 Siri같이 바로 옆에서 사용해 볼 수 있는 것도 있고, 우리네가 사용하는 시스템에는 머신 러닝이 적용된 분야도 보이지 않게 많이 있다.
201707-201709 책 로그
Business Analyst와 데이터 추출
A business analyst (BA) is someone who analyzes an organization or business domain (real or hypothetical) and documents its business or processes or systems, assessing the business model or its integration with technology. (출처: 위키피디아)
서비스 분석에서의 대표성
샘플 수가 문제가 아니다.
신문 기사의 설문 통계 기사에서는 표본들을 자세히 보지 않으면 속는다는 이야기를 한다
(실생활에서의 통계 관련 고전 도서인 [새빨간 거짓말, 통계(How to lie with statistics)]에서 가장 먼저 등장하는 사례가 이 예제다(1)).
일반적으로 흔히 이야기하는 부분은 이런 것이다.
머신 러닝에서 알고리즘 공부를 말할 때 내가 하고 싶은 이야기
AI Conference에서 인상 깊게 들은 talk으로 머신 러닝 계의 전설이 아닌 레전드 피터 노빅느님의 키노트가 있었다. 무수한 딥러닝/머신 러닝 프레임워크들이 등장하면서 AI 프로그램도 공장제;; 가 되었지만 여기서 간과되는 것이, 머신러닝을 일반 프로그래밍처럼 다루게 되는 것이다. 그래서 모델을 프로그램 짜는 양 만들고, 데이터 training을 디버깅마냥, training 반복을 프로그램 패치하는 것과 유사한 개념으로 받아들이게 되는데 실제로 이런 경우 간과하게 되는 것들이 많다는 것이다. 특히 결과가 명확하게 떨어지는(그리고 그렇게 되기를 지향하는) 프로그램들과는 달리, 기본적으로 머신 러닝 알고리즘은 불확실성을 최소화하려고 할 뿐 모든 과정에서 불확실성과 확률이 존재하는데, 이 존재를 고려하지 않는다는 것이다.
201704-201706 책 로그
O’Reilly AI Conference 3일차 후기
O’Reilly AI Conference 2일차 후기
O’Reilly AI Conference 1일차 후기
Seniority 에 대한 단상
최근 사람들에게 많이 듣게 되는 이야기 중 하나가 ‘주니어신 줄 알았어요’ ‘어려보인다’, ‘젊게 사시는 것 같다(…)’, ‘그 나이인 줄 몰랐다’ 같은 이야기다. 물론 많은 성인들에게 어려 보인다는 이야기는 칭찬이지만, 보통 내가 하는 대답은 이렇다. ‘아하하. 어리게 봐주시는 건 감사하지만 웬지 그건 제가 철이 없고 허술해서 그런 지도 모르겠네요.’
스승의 날의 단상
언젠가, TV에서 스타워즈가 방영했다. 조카는 바로 ‘막내 이모- ‘를 외치면서 나에게 이것저것 물어보았고, 나는 이런저런 설명을 해 주었다. 이 이야기를 지인들에게 하면서, 나는 ‘이렇게 알려줄 윗 세대 덕후가 없었어서 매우 힘들었고, 지금도 누군가에게 가르쳐 줄 때 어느 눈높이에 맞춰서 설명을 해주어야 할 지 모르겠다. 물론 가르쳐주려고 노력은 한다. 조카들은 나처럼 삽질하다 잡덕에서 머물지 말고 보다 쉽게 덕후가 될 수 있다면 좋지 않겠는가. 나도 지금이라도 스승이 필요하다!’ 라고 했더니 사람들이 ‘님은 파다완을 들여야지 스승을 찾습니까…‘라고 했다. 하지만 필요하다. 지금도 배움의 길은 늦지 않았을 것이라고 믿고 싶다. 지금은 이것저것 혼자 마구잡이로 파다보니 뭐 하나 제대로 파는 것 없이 모든 데 다 상식선으로 발을 걸쳐놓을 뿐인 이도저도 아닌 영원히 고통받는 잡덕이 되었다.
201701-201703 책 로그
머신 러닝, 인공지능, 그리고 데이터
몇 달 전 이 글에서도 언급한 적이 있지만, 인공지능에서 데이터가 왜 필요하냐, 데이터나 통계 하는 사람들은 머신러닝같은 거 나오면 못 쓰게 되지 않냐 하는 질문을 슬금슬금 들어왔고, 최근에는 정말 그 빈도가 매우 높아졌다. 그리고 내 대답은 일정하다. ‘데이터를 사용해서 문제를 풀어서 해답을 찾는 것에서, 최적의 방식은 문제에 따라 다르고, 그 방식을 사용하면 되는 것이라고 생각합니다. 그 방식이 문제에 따라 통계 기법이 될 수도 있고, 알고리즘을 활용한 데이터 마이닝이 될 수도 있습니다. 머신 러닝은 인공지능의 다양한 가지 중 하나이니 크게 보면 인공지능에 포함되기도 합니다. 이런 것들은 서로 맞물려 돌아가고, 어느 정도는 기존에 해왔던 것입니다.’ 라는 것이 내 대답이다.
서비스의 실험에서의 윤리
실험 윤리, 법과 도덕의 망 안에서 살지만 그다지 윤리적이라고 하기에는 부끄러운 나같은 사람들도 많이 들어봤을 법한 말이다. 하지만 보통 이 말은 화장품 등의 동물 윤리 라든가 혹은 논문 표절 기사 등에서나 다루고, 일반적인 비즈니스 환경에서 들을 일은 없다고 생각될 지도 모르겠다. 하지만 모든 실험은 기본적으로 실험 윤리의 밑바탕에서 이루어져야 하고, 이는 서비스에서도 ‘실험’이란 단어를 사용하게 되면 마찬가지라고 생각한다.
서비스의 실험에 대한 이해
언제부터인가 ‘A/B 테스트’ 같은 말이 유행하기 시작했고, 많은 서비스에서 ‘실험을 한다’는 말이 자연스럽게 나오게 되었다. 특히 ‘데이터 기반 의사 결정’이 널리 퍼지고, ‘데이터 분석’이 보다 용이해지면서 이런 현상은 더욱 심화되었다. 실제로, 더욱 더 많은 서비스들이 베타 테스트 등의 간단한 실험을 통해서 실제 그 이후의 서비스의 방향-버튼 색 결정부터 기능 추가에 이르기까지-을 결정하는 일이 많아졌다.
혼란과 부재의 미덕
팀 하포드의 [메시]를 읽었다.
리바이벌 - 믿는 자에게 복이 있나니 시간 가는 줄 모르는 소설이 너희들 것이라
스티븐 킹은 [죽음의 무도]라는 공포 작품 평론서에서 고전 공포 문학 작품들을 분류하고 찬양(?)했던 적이 있다. 메리 셸리, 브람 스토커, 로버트 루이스 스티븐슨. [프랑켄슈타인], [드라큘라], [지킬 박사와 하이드]로 크게 분류를 나누고 거기에 유령 분류를 따로 둔 후 여기서는 셜리 잭슨의 [힐 하우스의 유령]을 언급한다. 그러면서 유령을 정의하면서 ‘자신들을 바라보는 인간들의 욕구와 어쩌면 인간들 마음의 본질까지도 차용한다는 관념’이라고 언급한다.
2016년의 땡땡땡
2016년 영화 결산
역시나 매년 하는 영화 결산. (연말은 이런 거 하면서 시간 참 잘 보낸다…)
2016년 책 결산
기능 공장에서 일하고 있다는 12가지 신호
(번역글)
지표를 바르게 사용하는 것
A: 우리 서비스에서 재방문자 비율을 가장 빨리 높일 수 있는 방법은 무엇일까요?
데이터로 말하기에서 종종 잊는 것
기업 환경에서 궁극적인 데이터의 목적은 의사 결정이라고들 한다. 이 말은 오래 전 경영학 때부터 지금까지, 기업환경은 무수한 탈바꿈을 하는 와중에도 빳빳하게 목을 치켜들고 존재감을 뽐내고 있다. 물론 기업환경의 변화에 따라 구체적인 활용에 대한 이론도 역시 계속 허물을 벗고 새로운 모습을 뽐내 왔지만, 그 안의 뼈대는 항상 동일하다. 회사의 중요한 수치의 변화를 확인하고, 그것에 대해서 결정을 내리는 것.
잉여의 잉여력 관리
http://www.slideshare.net/cojette/ss-63863660 (Slideshare 발표자료)
인공지능 시대의 통계의 위치
인공지능 시대의 도래
요즘 인공지능이 대세다. 딥러닝이 여기저기서 언급되기 시작하면서 슬슬 지펴지던 열기는 지난 3월 이세돌과 알파고의 바둑 대결이 이뤄지고, 알파고가 4:1로 이세돌을 이기면서 한층 달아올랐다. 최근 업무 관련해서 사람들과 이야기를 나누다 보면, 전에는 ‘데이터 분석에는 기계 학습(Machine Learning) 을 사용하느냐’, ‘통계와 데이터 마이닝이 뭐가 다르냐, 데이터 분석에는 무엇을 쓰냐’ 등의 질문이었다. 그런데 최근에는 거기에 한 종류가 더 추가되었다. ‘데이터 분석은 인공지능하고 무슨 관계일까’, ‘통계 기법은 인공지능 시대에 뒤떨어진 게 아니냐’ 같은 이야기 들이다.
침묵의 뿌리
(조세희 사진-산문집)
데이터로 살펴보는 SF 영화 속 로봇(4)
자동으로 족보 만들기
데이터로 살펴보는 SF 영화 속 로봇(3)
1편과 2편에 걸쳐 SF(혹은 Sci-Fi) 영화 속에 나오는 로봇들에 대해서 살펴보기로 했다는 말을 길게 풀고, 실제로 로봇들이 등장하는 추이까지도 같이 서툴게나마 살펴보았다. 사실 저기까지 하는 데에 시간이 많이 소비되기는 했지만(그래서 말도 길었다) 저기서 끝을 내면 웬지 나도 억울하고 글을 보시는 분들도 허무할 것 같으니, 되도 않는 이야기를 더 짜내 보도록 하자. (그리고 다 읽으신 분들은 더 허무하다며 돌을 던질지도…)
데이터로 살펴보는 SF 영화 속 로봇(2)
앞서 이번 프로젝트의 데이터 획득까지의 과정을 살펴보았다. 다음 단계로, 이렇게 얻은 데이터를 분석 목적에 맞게 가공하는 과정이 필요하다. 애초에 데이터 수집을 목적에 맞춰서 내가 주도해서 한 것이라면 수집 시에 데이터를 잘 가공해 놓을 수 있겠지만 지금은 데이터를 주워와서 쓰는 과정이라, 내 입맛에 맞게 데이터가 만들어져 있지 않다. 데이터 사냥꾼들은 어설프게 비슷한 데이터라도 있으면 감사하게 가져와서 사용해야 할 따름이다.
코리 닥터로우의 필리버스터 글
이 글은 팬심(?)에서 번역한 아마추어의 글이고 오픈되어 있으므로 링크를 공유하는 것은 상관없습니다. 다만 내용(일부 발췌 포함)을 그대로 사용/공개 시에는 메일/댓글 등등으로 사전 말씀 부탁드립니다.
데이터로 살펴보는 SF 영화 속 로봇(1)
최근 [스타워즈 7]이 개봉을 했다. 거기에 조연으로 등장한 스타워즈의 단골 로봇 R2-D2나, 이번 시퀄부터 등장한 BB-8같은 귀여운 로봇은 화제도 얻고 장난감으로 나와서 절찬리에 팔리기까지 했다. 어디 이 뿐이랴. 많은 Sci-Fi 영화에는 대부분 로봇(혹은 인공지능)이 조연으로, 혹은 악당으로 등장해서 화제를 불러일으킨다. [인터스텔라]에는 TARS가 있었고, [그녀]에는 사만다가 있었다.
데이터로 취미생활 관리하기 - 독서 편
나는 업이 데이터를 보는 사람이다보니, 업 외의 일반 생활에서까지 데이터를 활용하는 것을 반은 의도적으로, 반은 귀찮아서 꺼리는 편이다. 아무래도, 평소 생활에서까지 너무 데이터 중심으로 살다 보면 시야가 좁아질 수도 있으며 일에 대한 흥미가 감소할 수도 있다는 이유, 그리고 그런 수치가 줄 수 있는 스트레스를 방지하고자 하는 이유에서다. 일상에서의 숫자 관리를 얼마나 안 하냐면, 나는 그 흔하디 흔한 체중 기록도 잘 하지 않는다.
에반게리온 신칸센 탑승자를 위한 안내서
몇 달 전, 일본에서 에반게리온 신칸센이 나온다는 기사를 보았다. 그것을 보고 마침 휴가가 남아서 어디든 떠나고 싶었던 나는 ‘어머 이건 타야 해.’ 를 외치면서, 일본어를 하나도 못 함에도 불구하고 기사 및 무수한 웹사이트를 구글 번역기를 돌려가면서 자세한 정체 및 탑승 신청 방법을 알아냈다(정리 내용 링크). 그리고 넘치는 잉여력과 몇 안 되는 본인의 장점 중 하나인 실행력으로 1달간 매일같이 신청을 했고, 결국 칵핏에 탈 수 있는 A상 당첨 메일을 받게 되었다.
개인 정보 바로 알기
사회적으로 ‘데이터’에 대한 이슈와 가능성이 많이 알려지면서 데이터를 어떻게 활용해야 하고 어디에 쓰면 되고 등의 이야기가 많이 거론되고, 이에 대한 관심도 높아졌다. 그리고 그러면서 데이터가 더욱 풍부하게 사용되는 미래에 대한 여러가지 관점이 나타난다. 혹자는 보다 편리한 장밋빛 미래를 꿈꾸기도 하고, 혹자는 [1984]의 ‘빅브라더’가 실재할 것이라고 두려워하기도 한다. 그러면서 데이터가 ‘양날의 검’과 같다는 점에 대해서는 많은 사람들이 동의한다. 하지만, 데이터가 가져다 줄 미래에 대해서는 많은 사람들이 다양한 생각을 하지만, 보다 본질적으로 그런 미래에 그런 모습을 만드는 데에 어떤 데이터가 필요한지에 대해서는 모호하게 생하고, 그런 미래가 자신에게 어떤 영향을 줄 지에 대해서는 막연하게나마 동경하거나 두려워하면서, 그런 모습이 자신의 어떤 정보-데이터를 가져다 쓰는 지에 대해서는 ‘그냥 모든 걸 다 기록하겠지’ 라면서 반쯤 포기한 상태로 시니컬하게 이야기곤 할 뿐이다. 그리고 그러면서도 어쩌다 개인정보가 이슈가 되면 ‘너희가 왜 그런 정보까지 다 기록하냐’, ‘내 정보가 언제 이렇게 샜냐’ 라며 [1984]나 [멋진 신세계]등의 유명한 디스토피아 문학을 들먹인다.
베이즈 이론이 푸리에 정리를 만났을 때
조제프 푸리에(Joseph Fourier)는 토마스 베이즈(Thomas Bayes)를 한 번도 만난 적이 없다. 푸리에는 베이즈가 사망한 지 7년 후인 1768년에 태어났다. 하지만 최근 베이즈 필터와 푸리에 변환 간의 어떤 연결고리가 있지 않을까 하는 생각이 들어, 관련 내용을 찾아보게 되었다.
Non Standard Evaluation in R
Prologue
Data Hackerthon-단기 데이터 분석에 대한 소고
Strata Conference가 끝나고, 메일로 질문을 몇 개 받았는데 그에 대해 답을 주다가 어찌어찌 하다보니 한 메일을 준 분과 그 메일 쓰레드에 같이 참조되었던 사람들과 동시에 짧은 시간에 데이터를 뒤져서 인사이트를 뽑아내는 작업을 할 기회가 있었다. 대략 시간은 10시간. JSON으로 된 로그 파일과 간단한 로그 설명 파일을 넘겨받고 이를 멋대로 분석해서 time check와 결과와 분석 코드를 끝내고 공유하는 방식으로. 그래서 한 1주일 가량, 퇴근 후 1-2시간씩 붙들고 늘어지는 식으로 진행했었다. (그 주에는 정말 피곤해서 죽을 뻔 했다. 그나마 회사에서 야근이 없었기에 망정이지…)
The thrilling adventures of LOVELACE and BABBAGE
‘러브레이스와 배비지가 분석 엔진(차등기계(difference engine)라고도 알려짐. 컴퓨터의 초기 모형)을 만든 이야기에 대한 게 그래픽 노블로 나왔다’라는 사실을 어디선가 접하고 울고 있었는데, 마침 컨퍼런스차 영국에 갈 일이 생겼다.
그리고 런던서 뵌 모 님께서는 영국의 거대한 서점 Foyles를 알려주시면서 ‘러브레이스 책 있는 건 확인했고요…‘라는 뽐뿌 멘트를 잊지 않고 날려주셨다. 그리고 가서 무려 그래픽 메인 진열대 한 가운데에 쌓여있는 이 책을 보는 순간 ‘Lovely!’를 외치면서 바로 계산대로 고고씽. ‘해외에서 책은 절대 사지 말자’라던 신념이 그대로 무너지는 순간이었다. So it goes.
얼불노 6권에 대한 베이지안 예측
- 본 포스팅은 http://arxiv.org/abs/1409.5830 의 논문을 요약 번역한 것입니다.
GOOGLE SPREADSHEET에서 SCRIPT 사용하기
로컬 컴퓨터에서 사용하기 가장 좋은 통계 도구라면 개인적으로는 “MS Excel”이라고 제창하는 바지만, 간혹 회사별 보안 프로그램에 걸린다든가 공유가 불편하다든가 하는 점이 있어서 이에 대한 대안으로 많이 사용하는 것이 Google Spreadsheet이다. 하지만 아무래도 Excel보다는 기능에 제약이 많고 일부 함수의 경우에는 구현이 안 되어 있기도 하며, Excel을 좀 많이 사용하는 사람들 같은 경우 VBA script를 사용해서 Excel macro 및 custom function을 사용하기도 하는데 이를 Google Spreadsheet에서 import해서 사용하거나 할 수 없어서, 정말 기본적인 스프레드시트의 역할로만 사용하고는 했다.
Doing Data Science (책)
데이터 계산 언어로서의 R
업무에서 주로 R을 사용하고, R 번역서를 두 권 냈음에도 불구하고, R이라는 언어에 대해서는 항상 의구심과 애증이 존재한다. 다른 프로그래밍 언어와는 좀 다르다보니, 이게 관점에 따라서는 불완전하다는 느낌도 들고, 지저분하다는 느낌도 들며, 특히 다른 프로그래밍언어의 개념에 조금이라도 익숙하다면 불편하고 답답하기 그지 없어진다. 그래서 이제는 굉장히 보편화되었음에도 불구하고, R에 대해서는 여전히 찬반양론도 높고 다른 프로그래밍언어로 웬만한 계산을 처리하고 싶어하는 경우도 많다.
바르셀로나 BIG BANG DATA 전시회 관람기
R과 Google이 함께 하는 시계열 예측
Overview
R로 인터랙티브 공간 데이터 시각화하기
공간 데이터 관련 시각화
R에서 GOOGLE ANALYTICS 데이터 사용하기
개요
Google Analytics(이하 GA)는 요즘 손쉽고 깔끔하게 웹 및 모바일 통계를 (대부분) 무료로 볼 수 있는 매우 근사하고, 덕분에 매우 각광받는 서비스다. 각설하고, 개인적으로도 이 서비스를 매우 좋아하는 바로 책도 보고 교육도 듣고(이 사이트의 어딘가에 교육 중 하나의 후기도 있다) 했지만, 그래도 대쉬보드에서 데이터를 보는 데에는 한계가 있고, 저 데이터를 받아서 내 멋대로 사용할 수 없을까 하는 생각도 했다. 물론 excel 다운로드 등을 제공하지만 원하는 수치들을 매번 받아서 R 시스템에 업로드해서 사용하는 일은 매우 번거로운 작업이다.
Doing Bayesian 스터디 (6장)
INFERRING A BINOMIAL PROPORTION VIA GRID APPROXIMATION
R(MARKDOWN)+RSTUDIO+GITHUB 사용하기
이번에는, R Markdown 뿐만이 아닌 R Code를 손쉽게 Github에 올리고 공유하는 내용에 대해서 잠깐 정리해 볼까 한다.
Data Lineage
요즘 데이터 처리 엔진 중 하나인 Apache Spark 가 주목을 받으면서 여기서 나온 기능 중 하나인 Lineage Graph 역시 주목을 받고 있다. 그러면서 data lineage에 대해서도 이야기가 들려온다. 하지만 data lineage는 DB 엔지니어들에게는 좀 켸켸묵은(?) 이야기일 수도 있다. DB 뿐만이 아니라 데이터 쪽을 업으로 가지고 있는 사람들이라면 기본적으로 ‘메타 데이터 관리’는 귀에 못이 박히도록 들었을 것이고, data lineage 역시 메타 데이터 관리 쪽 개념의 일환으로 한 때 IBM 등의 업체에서 열심히 밀었던 개념 중 하나다. (그리고 물론 본인은 Spark는 실제로는 구경도 못하고 관련 문서 몇 개만 뒤적거려 본 것이 다지만) 기본적인 개념은 이 때와 그다지 달라진 것 같지는 않다.
COURSERA의 EDA 수업 후기
대표적인 MOOC Site인 Coursera에는 수시로 다양한 좋은 강의들이 올라와서, 늘 쓸데없는(?) 지적 욕구에 허덕이는 사람들에게는 새로운 늪과 같은 존재다. 이것도 필요하고 저것도 듣고 싶고…하다가 늘 잔뜩 enroll해놓고는 시간과 여건이 부족해서 더욱 쫓기다가 unenroll을 누르면서 우는 패턴이 반복된다.
R로 하는 기초적 통계 모델 평가
데이터 분석의 꽃은 통계 모델이다. 원하는 인사이트가 나오는 통계 모델을 짠 하고 만들어 냈을 때, 혹은 운좋게 모델 만드는 함수 하나를 돌려봤는데 꽤 적절한 결과를 뱉어주면 얼마나 흥분되고 신나면서 그간 힘들었던 일들이 싹 잊혀지는 지는 경험해 본 사람들만 알 수 있다.
FACEBOOK의 ASK 버튼에 대한 단상
Facebook에 ‘Ask’기능이 생겼다. (클리앙 기사 링크 )
간결한 통계 모형
데이터 분석이 다양하게 사용되면서, 통계적 기법을 사용한 데이터 분석 모형을 만드는 일 역시 늘어나고 있다. 더불어 다양한 데이터 마이닝 기법이 들어오면서, 다이나믹하고 어려운 기법들이 왕왕 사용되는 것을 쉽게 볼 수 있다. 물론 새로운 기법들은 굉장히 신기하고 좋고, 잘 맞아 떨어지면 그렇게 좋을 수는 없겠으나, 간혹 보다 보면 ‘새로 나온 알고리즘’이란 이유로, 혹은 ‘있어보인다’는 이유로 필요없는 데까지 괜히 많이 사용되고, 쉬운 모델이라는 이유로 천대받는(?) 것을 보면 불편한 기분이 없지 않다.
인구통계학 데이터 제대로 사용하기
마케팅이나 실제 사용자 접점의 서비스에서는 사용자 구분 시 인구통계학적(연령,성별,지역 등) 구분을 자주 사용한다. 직관적이어서 의사소통에도 유리하고, 구분하기도 편리하며, 결과를 활용하기도 쉽고, 일명 사람들의 ‘가설’을 뒷받침하기 굉장히 유리하며, 인구에 회자되기도 좋다.
DataDay at 판교
발단
비즈니스에서의 데이터 오남용에 대한 푸념
나는 ‘데이터 분석’을 나름 n년간 해왔고, 이 내 ‘업’에 대한 프라이드가 꽤 높은 편이다. 그래서 예전부터 내 일이 다른 사람의 ‘수단’이 되는 것이 싫었다. 물론 데이터 분석으로 바로 어떤 서비스를 만든다거나 수익을 낼 수 있는 것도 아니고 있다손 치더라도 내가 그렇게 거물이 되려면 아직도 한참 남은 것을 알고 있기 때문에 어느 정도 포기하면 편해져요 상태기는 했지만. 하지만 데이터 분석의 기원 자체도 다른 의사 결정 ‘수단’이자 ‘검증’용이라는 것을 뻔히 알면서도 나는 여기에 올인하고 있는데 다른 사람들은 제품 기획이나 마케팅 등을 자신들의 주요 업무로 끌고 가면서 데이터 분석을 ‘어설프게’ 수단으로 추구하는 게 영 맘에 안 들었다. 제대로 하면야 얼마나 좋겠냐만 고의로, 혹은 모르고 마구 데이터 분석을 오용 혹은 남용해대는 게 종종 보이니 영 불편할 수밖에 없었다. (그러니까 약은 약사에게 진료는 의사에게 분석은 분석가에게.) 이 바닥에서 일을 하면서, 그리고 ‘빅 데이터’니 ‘데이터 사이언스’니 몇 번을 봐도 오글거리는(…) 버즈워드들이 범람하면서 많은 사람들이 데이터에 관심을 가지고, 이를 자신의 일에 활용하려는 현상을 많이 봐왔다. 물론 이는 굉장히 바람직하긴 하다. 감으로 무수한 일들을 진행하다가 이제는 무언가 논리와 근거를 가지고 일을 진행하려는 것이 옳은 방향이라고도 생각한다. 하지만 이 사람들이 데이터를 ‘어설프게’ ‘자신의 생각에 맞게’ ‘함부로’ ‘아는 척 하며’ 다루는 것을 보고 있노라면 굉장히 짜증이 만개하는 것은 어쩔 수 없는 일이다.
How to measure anything (책)
Make the important measurable, not the measurable important.