Home Doing Data Science (책)
Post
Cancel

Doing Data Science (책)

데이터로 무언가를 하는 것에 관심있으신 분들, 진지하게 이 책 추천드립니다. 이 책 꼭 보세요. 두 번 보세요. 수학 기반이든 전산 기반이든 혹은 저처럼 잡과(…) 기반이든, 이미 데이터 업무를 많이 하신 분이든 관심이 있는데 뭘 봐야 할 지 모르겠는 분이든 이제 데이터 쪽에 발을 들여놓으신 분들이든 누구든 상관없이 한 번 꼭 봐서 나쁠 것 없는, 아니 좋은 책입니다.

물론 ‘데이터 과학’이라는 제목에 2% 거부감이 들고, ‘컬럼비아 대학교 대학원과정 교재’라는 타이틀이 심적으로 부담감을 주기도 하며, 오라일리도서 하면 웬지 교과서 같아서 쉽게 손이 잘 안 가기도 하고, 약간의 R과 약간의 파이썬과 약간의 수학 공식 읽을 능력이 필요하다는 부담이 있다. 하지만 여기서 필요로 하는 사전지식이 어려운 수준도 아니고, 이 정도는 데이터 보려면 누구나 다 하는 수준 정도로, 어차피 필요한 지식이다. (물론 수학 공식처럼 생긴 것만 봐도 일단 책을 덮게 된다는 건 안다. 원서 볼 때는 나도 그랬다.) 즉, 책 표지에서 오는 여러 부담감만 눈 딱 감고 지나치면, 굉장히 근사한 세계가 열린달까.

무엇보다, 실제로 주로 사용되는 최소한의 간단한 데이터 분석 방법, 머신 러닝 알고리즘을 실제 가까운 사례와 함께 쉽게, 그러면서도 기본적으로 중요한 내용들은 다 포함해서 다루고 있다. 머신 러닝 책이나, 분석 책을 추천해 달라고 할 때, 그 사람의 사전 지식 정도나 배경 정도가 다 다르고 이 분야가 대부분 조금만 깊이 들어가도 너무 어렵게 빠지다보니 전반적으로 책들이 어려운 데가 있어서 추천하기가 꽤 힘들었는데, 이 책은 이런 면에서 굉장히 훌륭한 입문서라고 볼 수 있다. 게다가 범위가 넓고 다양해서, 이미 어느 정도 이 분야에 익숙한 사람도 한 번 훑어보면서 그간 놓치고 있던 점들을 한 두 가지 정도는 발견할 수 있을 것 같다는 점에서, 누구에게나 일단 충분히 도움이 될 수 있다고 생각한다. R이나 쉘 스크립트나 파이썬 같이 가독성 좋은 코드로 몇 가지 예제들이 설명되어 있어서, 이를 실제로 따라해보고 응용해보기 좋은 점도 플러스다. 또한 다른 책에서 보기 어려운, 실제로 데이터를 분석하고 다루면서 데이터를 어떤 측면에서 봐야 하고, 어떤 점을 주의해야 하고, 어떤 것에 초점을 맞춰야 하는 지에 대해서 잘 실려있다는 점이다. 어려운 것은 아닌데 딱 집어서 설명하기 애매했던 것이, 혹은 나도 실제로 데이터 분석이란 것을 하면서 놓치고 있던 점들을 깔끔하고 명료하게 싣고 있어서,굉장히 반가웠다.

이렇게 많고 꼭 필요한 내용들을 싣고 있으면서도, 책이 꽤 재미있게 구성되어 있다. 내 경우는 원서로 한 번 훑어보다 수식과 코드들 있는 것 보고 나중에 읽으려고 던져놨다가, 이번에 번역본이 나왔길래 번역이 잘 되었나 훑어보려고 넘겨봤다가,중간에 팍팍 꽂히는-잘 몰랐던 내용이나 공감되는 내용 등- 부분들이 종종 나와서 결국 멈추지도 못하고 소설책 읽는 기분으로 끝까지 훌훌 다 읽어버렸다.

원체 좋은 책이라고 소문은 들었는데 생각보다도 더 훌륭해서, 도저히 한 두 문장으로 책 읽음! 이라고 할 수가 없어서 한 번에 그냥 리뷰를 써버렸다. 어쨌든 요약하면 책 좋다. 번역도 괜찮다(책도 얇은데 번역자가 5명이나 되어서 걱정되었는데, 번역자들이 이런 면에서 좀 신경을 썼던 것 같다. 서두에 보니 베타리딩도 하고 손도 꽤 보고 한 모양이다). 내용이나 구성이나 난이도나 매우 괜찮다. 단언컨대, 내가 읽은 이 분야 책 중에서는 정말 1순위다. 이 분야에 관련된 사람들이라면 누구에게나 추천하고 싶은 책이다.

    This post is licensed under CC BY 4.0 by the author.

    데이터 계산 언어로서의 R

    GOOGLE SPREADSHEET에서 SCRIPT 사용하기