Home COURSERA의 EDA 수업 후기
Post
Cancel

COURSERA의 EDA 수업 후기

대표적인 MOOC Site인 Coursera에는 수시로 다양한 좋은 강의들이 올라와서, 늘 쓸데없는(?) 지적 욕구에 허덕이는 사람들에게는 새로운 늪과 같은 존재다. 이것도 필요하고 저것도 듣고 싶고…하다가 늘 잔뜩 enroll해놓고는 시간과 여건이 부족해서 더욱 쫓기다가 unenroll을 누르면서 우는 패턴이 반복된다.

이런 패턴을 n번 반복하다, 더 이상은 버틸 수 없다!!를 외치면서 한 달에 하나씩을 외치면서, 이번 달에는 warming up 개념으로 EDA(Exploratory Data Analysis) 수업을 들었다. 물론 이번 달 수업 자체는 끝나지 않았으나, Quiz와 Project를 제출했고 올라와 있는 수업을 다 봤기 때문에 후기를 올려본다.

EDA 수업은 국내 드라마에서 해외 유학파 의사가 나오면 곧잘 등장하는 대학인 Johns Hopkins에서 Data Science Signature Track의 일환으로 만든 course track 중 하나로, 지난 5월에 한 번 오픈되었으며, 동일한 내용이 이번 달에도 오픈되었고, 다음 달에도 한 번 더 오픈될 것으로 알고 있다. 기본적으로 이 앞에 나오는 수업인 R Programming이나 Data Science Toolbox 수업을 들었거나, R 및 Github 등을 사용할 수 있으면 이 수업을 듣는 데에는 크게 무리가 없다.

수업 내용 자체는 그다지 어렵지 않다. R에 익숙해지기 위해 듣는 R Programming 수업보다 난이도 자체는 더 쉽다는 생각도 든다. 사실 EDA라는 개념 자체가 어려운 것이 아니라, 데이터를 접했을 때 이를 바로 어떻게 활용해야 할 지 익숙해지지 않아서 그런 것이다보니, R에만 익숙하다면 수업 자체는 가볍게 볼 수 있다.

이 수업에서 가장 많은 시간을 할애하는 것은 ‘그래프’를 그리는 것이다. 데이터 시각화를 통해서 한 눈에 빠르게 데이터의 분포 및 형태를 파악하고 데이터를 그룹화해서 비교하고, 이상한 부분이 있으면 그 부분을 더 자세히 살필 수 있도록 하는 것이다. 이를 위해서 EDA에 일반적으로 사용되는 그래프들이 어떤 것들이 있으며, 이를 R에서 그리기 위해서 필요한 것들(기본적인 plot()함수 및 R Graphic에서 가장 유명한 패키지인 ggplot2)에 대해서 익히는 것이 수업의 반 이상에 퀴즈 및 프로젝트의 대부분을 차지한다. 그 외에는 간단히 데이터의 구조를 파악하기 위해 다양한 클러스터링 및 차원 축소를 간단하게 살펴보고, 역시 이를 그래프로 그리는 것을 익힌 후에, 이에 대한 case study를 살펴보는 것 정도로 마무리된다.

너무 R 의존적인 수업이라 아쉬움이 있지만(심지어 1,2주의 graphic에 대한 수업은 거의 R 기능 설명이고, 3주에서도 개념 설명이 들어가기는 하지만 이게 다 R로 설명된다) R에 살짝 익숙해진 사람이 R로 데이터를 보는 데에 입문하는 위치에서는 적절히 잘 자리잡은 수업이라는 생각. 사실 이 정도만 알아도 실제 생활 및 업무에서 데이터를 충분히 활용할 수 있고, 데이터의 상태를 파악하는 데에도 꽤 충분하다고 생각한다. 내용이 너무 쉽다고 느껴질 수도 있지만, 앞에서도 말했듯 새로운 내용을 배운다기 보다 데이터에 친숙해지고 기본적 상태를 파악해서 어떤 면에 집중해야 할 지 파악하기 위해 어떻게 살펴봐야 할 지 정리해서 익히기에 적당한 수업이다. 퀴즈나 프로젝트의 로드도 적당해서, 가벼운 마음으로 한 번 훑어볼 만 하다.

    This post is licensed under CC BY 4.0 by the author.

    R로 하는 기초적 통계 모델 평가

    Data Lineage