Home
Cojette의 Data Wonderland
Cancel

Data Lineage

요즘 데이터 처리 엔진 중 하나인 Apache Spark 가 주목을 받으면서 여기서 나온 기능 중 하나인 Lineage Graph 역시 주목을 받고 있다. 그러면서 data lineage에 대해서도 이야기가 들려온다. 하지만 data lineage는 DB 엔지니어들에게는 좀 켸켸묵은(?) 이야기일 수도 있다. DB 뿐만이 아니라 데이터 쪽을 업으로 가...

COURSERA의 EDA 수업 후기

대표적인 MOOC Site인 Coursera에는 수시로 다양한 좋은 강의들이 올라와서, 늘 쓸데없는(?) 지적 욕구에 허덕이는 사람들에게는 새로운 늪과 같은 존재다. 이것도 필요하고 저것도 듣고 싶고…하다가 늘 잔뜩 enroll해놓고는 시간과 여건이 부족해서 더욱 쫓기다가 unenroll을 누르면서 우는 패턴이 반복된다. 이런 패턴을 n번 반복하다,...

R로 하는 기초적 통계 모델 평가

데이터 분석의 꽃은 통계 모델이다. 원하는 인사이트가 나오는 통계 모델을 짠 하고 만들어 냈을 때, 혹은 운좋게 모델 만드는 함수 하나를 돌려봤는데 꽤 적절한 결과를 뱉어주면 얼마나 흥분되고 신나면서 그간 힘들었던 일들이 싹 잊혀지는 지는 경험해 본 사람들만 알 수 있다. 하지만 여기에는 맹점이 있다. 이전의 데이터를 처리하고 어떤 모델을 써야 할 ...

FACEBOOK의 ASK 버튼에 대한 단상

Facebook에 ‘Ask’기능이 생겼다. (클리앙 기사 링크 ) 일단 미국 한정이고, 상대방의 관계 상태를 묻고 답하는 기능이다. 물론 페북에는 메시지 기능도 따로 있으니 그걸 활용해도 되고, 분명 부작용이 있을 수도 있겠지만, 우선 따로 ‘ask’라는 버튼이 있으면 활용해 보고도 싶어지고(…) 보다 relation에 대해 접근하는 심리적 장벽을...

간결한 통계 모형

데이터 분석이 다양하게 사용되면서, 통계적 기법을 사용한 데이터 분석 모형을 만드는 일 역시 늘어나고 있다. 더불어 다양한 데이터 마이닝 기법이 들어오면서, 다이나믹하고 어려운 기법들이 왕왕 사용되는 것을 쉽게 볼 수 있다. 물론 새로운 기법들은 굉장히 신기하고 좋고, 잘 맞아 떨어지면 그렇게 좋을 수는 없겠으나, 간혹 보다 보면 ‘새로 나온 알고리즘...

인구통계학 데이터 제대로 사용하기

마케팅이나 실제 사용자 접점의 서비스에서는 사용자 구분 시 인구통계학적(연령,성별,지역 등) 구분을 자주 사용한다. 직관적이어서 의사소통에도 유리하고, 구분하기도 편리하며, 결과를 활용하기도 쉽고, 일명 사람들의 ‘가설’을 뒷받침하기 굉장히 유리하며, 인구에 회자되기도 좋다. 하지만 이 데이터를 사용하는 데에는 여러 면에서 주의가 필요하다. 인구통계...

DataDay at 판교

발단  회사에서 어쩌다 lean analytics발표를 하고 자료 및 책 읽은 게 아깝기도 하고 나름 사람들을 널리 재밌게 하고자 소소하게 이에 대해서 다과회나 하면서 떠들고 놀자!라고 하고 있었는데 마침 이전에 베스트슬쉐에도 올라가신 용호님의 발표를 판교에서 사람들끼리 모여서 공유한다면서, 여기에 다과회도 같이 하면 어떻겠냐는 제안을 받았다. 나쁘...

비즈니스에서의 데이터 오남용에 대한 푸념

나는 ‘데이터 분석’을 나름 n년간 해왔고, 이 내 ‘업’에 대한 프라이드가 꽤 높은 편이다. 그래서 예전부터 내 일이 다른 사람의 ‘수단’이 되는 것이 싫었다. 물론 데이터 분석으로 바로 어떤 서비스를 만든다거나 수익을 낼 수 있는 것도 아니고 있다손 치더라도 내가 그렇게 거물이 되려면 아직도 한참 남은 것을 알고 있기 때문에 어느 정도 포기하면 편...

How to measure anything (책)

Make the important measurable, not the measurable important. 예전부터 굉장히 좋아하는 말이고, 가능하면 이렇게 하려고 노력한다. 어차피 정량적인 것은 이제 사람들이 수많은 방법으로측정해서 이리저리 변주해서 사용하고 있다. 그리고 소셜이니 어쩌고니 하면서 사람들의 반응과 관계, 경험에 대한 평가 및 응용...