Home
Cojette의 Data Wonderland
Cancel

R과 Google이 함께 하는 시계열 예측

Overview 데이터 분석이 흥하면서, 한동안 잠잠하던 시계열 예측 분석이 다시 주목받고 있다. 이 시계열 예측 분석이 침체기였던 이유는, 보통 실제로 어떤 사건이 발생함에 있어서 수많은 실험에서의 가정처럼 ‘독립적’인 경우가 많지 않은지라, 단일한 시계열로 그 이후를 예측할 때 그 결과가 믿을 만한 경우가 (실험적으로야 잘 나온다 하더라도) 그다...

R로 인터랙티브 공간 데이터 시각화하기

공간 데이터 관련 시각화 우리 조상님들께서 일찌기 ‘백문이 불여일견’이라는 한 마디 명언으로 요약하셨듯이, 내용 전달에는 시각화만큼 효과적인 방법이 드물고, 따라서 데이터 분석 내용도 이를 사람들에게 효과적으로 전달하기 위해서는 데이터 시각화를 잘 하는 것이 중요하다. 그래서 데이터 분석이 흥하면서 데이터 시각화 역시 주목받고 있고, 이런 경향은 점...

R에서 GOOGLE ANALYTICS 데이터 사용하기

개요 Google Analytics(이하 GA)는 요즘 손쉽고 깔끔하게 웹 및 모바일 통계를 (대부분) 무료로 볼 수 있는 매우 근사하고, 덕분에 매우 각광받는 서비스다. 각설하고, 개인적으로도 이 서비스를 매우 좋아하는 바로 책도 보고 교육도 듣고(이 사이트의 어딘가에 교육 중 하나의 후기도 있다) 했지만, 그래도 대쉬보드에서 데이터를 보는 데에는 ...

Doing Bayesian 스터디 (6장)

INFERRING A BINOMIAL PROPORTION VIA GRID APPROXIMATION 이 장에서는 사전 분포가 베타 분포로 정의되지 않은 경우의 추론 방법에 대해 다룬다. 전반적으로 분포를 이산적으로 분할한 후, 적분 대신 합으로 구해준다고 생각하면 간단하다. Bayes’ Rule for discrete values of theta ...

R(MARKDOWN)+RSTUDIO+GITHUB 사용하기

이번에는, R Markdown 뿐만이 아닌 R Code를 손쉽게 Github에 올리고 공유하는 내용에 대해서 잠깐 정리해 볼까 한다. GitHub은 소셜 기반의 버전 관리 시스템이다. 버전 관리 시스템의 개념과 역사(?)에 대해서만 설명해도 몇 개의 페이지가 나올 것 같으니 이에 대해 자세한 설명은 생략한다. GitHub에 대한 매뉴얼이나 문서는 구...

Data Lineage

요즘 데이터 처리 엔진 중 하나인 Apache Spark 가 주목을 받으면서 여기서 나온 기능 중 하나인 Lineage Graph 역시 주목을 받고 있다. 그러면서 data lineage에 대해서도 이야기가 들려온다. 하지만 data lineage는 DB 엔지니어들에게는 좀 켸켸묵은(?) 이야기일 수도 있다. DB 뿐만이 아니라 데이터 쪽을 업으로 가...

COURSERA의 EDA 수업 후기

대표적인 MOOC Site인 Coursera에는 수시로 다양한 좋은 강의들이 올라와서, 늘 쓸데없는(?) 지적 욕구에 허덕이는 사람들에게는 새로운 늪과 같은 존재다. 이것도 필요하고 저것도 듣고 싶고…하다가 늘 잔뜩 enroll해놓고는 시간과 여건이 부족해서 더욱 쫓기다가 unenroll을 누르면서 우는 패턴이 반복된다. 이런 패턴을 n번 반복하다,...

R로 하는 기초적 통계 모델 평가

데이터 분석의 꽃은 통계 모델이다. 원하는 인사이트가 나오는 통계 모델을 짠 하고 만들어 냈을 때, 혹은 운좋게 모델 만드는 함수 하나를 돌려봤는데 꽤 적절한 결과를 뱉어주면 얼마나 흥분되고 신나면서 그간 힘들었던 일들이 싹 잊혀지는 지는 경험해 본 사람들만 알 수 있다. 하지만 여기에는 맹점이 있다. 이전의 데이터를 처리하고 어떤 모델을 써야 할 ...

FACEBOOK의 ASK 버튼에 대한 단상

Facebook에 ‘Ask’기능이 생겼다. (클리앙 기사 링크 ) 일단 미국 한정이고, 상대방의 관계 상태를 묻고 답하는 기능이다. 물론 페북에는 메시지 기능도 따로 있으니 그걸 활용해도 되고, 분명 부작용이 있을 수도 있겠지만, 우선 따로 ‘ask’라는 버튼이 있으면 활용해 보고도 싶어지고(…) 보다 relation에 대해 접근하는 심리적 장벽을...

간결한 통계 모형

데이터 분석이 다양하게 사용되면서, 통계적 기법을 사용한 데이터 분석 모형을 만드는 일 역시 늘어나고 있다. 더불어 다양한 데이터 마이닝 기법이 들어오면서, 다이나믹하고 어려운 기법들이 왕왕 사용되는 것을 쉽게 볼 수 있다. 물론 새로운 기법들은 굉장히 신기하고 좋고, 잘 맞아 떨어지면 그렇게 좋을 수는 없겠으나, 간혹 보다 보면 ‘새로 나온 알고리즘...