Home 데이터 제품 프로젝트 이끎이의 기억
Post
Cancel

데이터 제품 프로젝트 이끎이의 기억

조직을 이끌면서 데이터 프로젝트를 이끌어야 했던 경험은 꽤나 있다. 하지만 데이터 제품을 만드는 프로젝트는 또 다른 이야기다.
데이터 프로젝트는 흔히 생각하듯 ‘모델을 만들고 통계치를 내면 끝’이 아니다. 일반적으로 해결해야 할 문제가 있고, 문제를 분석하고, 관련된 사람들과 커뮤니케이션을 하고, 필요한 데이터의 현황과 방법론을 탐색하고, 이를 실현할 방법을 찾는 등 꽤나 복잡한 단계와 절차를 거친다. 하지만 데이터 제품을 만드는 프로젝트에서는 이런 단계가 보다 복잡하다. 문제를 넘어선 서비스의 목적, 목표가 있고, 층위가 넓고 다양하며 직접적으로 연결되어 있지 않는 사용자에게 가닿는 설계 방안, 그리고 적합한 데이터를 탐색하고 이를 원활하게 사용자에게 전달하기 위한 구성 등의 설계까지 고민해야 한다.

작년에 내가 주도로 진행한 프로젝트도 마찬가지였다. 처음엔 단순한 데이터 시각화 플랫폼 정도로 시작했지만(물론 그 정도도 어쨌든 도전적이긴 했다), 프로젝트가 진행될수록 요구는 커지고, 변경은 끊이지 않았으며, 인력은 턱없이 부족했고, 그만큼 내 역할도 확장됐다.연말 런칭 시점에는 공공 데이터를 민간 플랫폼 데이터와 융합하고, 예측 모델을 만들고, 이 결과를 사용자별로 적절하게 보여주고, 복잡한 서비스를 쉽게 사용할 수 있도록 음성이나 텍스트로 자연어 질문에 답해주고, 사용자가 필요한 때에 쉽게 사용할 수 있도록 PC와 모바일 형태를 각각 적절하게 지원하는 형태의 서비스로 나오게 되었다.

나에게 있어서 이 프로젝트를 진행하는 데에 내가 해야 하는 가장 중요한 핵심은 “연결”이었다. 데이터 간의 연결부터, 기술과 비즈니스 간의 연결, 사용자와 정보 간의 연결, 이산적인 서비스 간의 연결. 각각 따로 노는 것 같은 요소를 이 서비스를 통해서, 혹은 서비스를 구현해 나가는 과정에서 적절하게 엮어서, 데이터가 더 큰 줄기에서 흐를 수 있도록 하는 것이 내가 할 일이라는 것을 알았다.

가장 우선적이고 중요한 일은 사용자와 정보를 엮는 일이었다. 사용자에게 필요한 정보가 무엇이고, 그 정보는 어떻게 데이터를 통해서 만들 수 있을 지를 이해해야 했다. 도메인을 빠르게 파악하는 편이라고 생각하지만, 정말 낯설고 생각도 안 해 본 분야와 익숙하지 않은 분야의 사람들, 그리고 이 곳에서 다양한 이유로 흩어진 데이터를 받아들이는 과정은 쉬운 작업은 아니었다. 하지만 예상 고객들과 수 회 인터뷰를 하고, 데이터 소개를 하는 과정을 거치면서 그래도 어느 정도 그들에게 필요한 정보를 만들어서 전달할 수 있겠다는 마음이 들었고, 이에 따라 필요한 정보들을 구성해 나갔다.

그리고 이에 적절한 데이터를 엮는 일을 진행했다. 사용자에게 필요한 정보와, 맥락을 맞춘 흐름을 만들고 여기에 필요한 데이터를 찾아나갔다. 국내외 공공 데이터를 여기저기 뒤져서 공개된 API를 찾아내서 마트에 쌓고, 여기에 민간 기업의 플랫폼 데이터를 결합하려니, 형식도 구조도 제각각이었다. “이 데이터를 사용자에게 어떻게 보여줘야 의미가 있을까?”라는 질문을 중심에 두고, 서비스 활용 목적 기반의 데이터 구조를 다시 설계해서 데이터를 적재해 나갔다.

일부 데이터는 예측값과 함께 제공되어야 했기 때문에, 예측 모델링 또한 프로젝트의 핵심 요소였다. 대부분 시계열 기반의 데이터를 다루다 보니, 시계열 예측 모델을 필요로 하고 있었고, 그래서 기본적인 고전 시계열 분해 모델을 AR-Net과 NeuralProphet 구조를 참고해 커스터마이징했다. 품목별 가격 예측, 판매량 변화 등 현실적인 문제를 다루는 만큼, 외부 환경이나 주기성도 적절하게 시험해서 반영해야 했다. 예측의 경우, 모델 정확도 못지않게 전달 방식도 중요하다. 그래서 어떤 정확한 값보다는 전반적인 추세를 보면서 참고할 수 있도록 시각적으로나 내용 면에서 가이드라인을 만들었다. 또한 예측값 역시 적시에 전달하는 게 필요했기 때문에 모델을 최적화해서 실행하는 방안 역시 많은 고민과 시행착오를 통해 진행해 나갔다.

그리고 서비스의 시작과 끝은 역시 사용자다. 서비스의 예상 사용자는 데이터 전문가가 아니다. 그래서 데이터 시각화는 사용자의 주의를 흐트러트리지 않으면서 필요한 데이터가 정확하게 전달되어야 했다. 너무 복잡해도 안 되고, 쓸데없는 내용이 있어서도 안 되며, 그래프를 오해할 만한 요소가 있어서도 안 되지만, 그렇다고 정보가 없어서도 안되고, 이목을 끌 수 있어야 했다. 또한 서비스에서 제공하는 내용이 적지 않고, 사용자는 이 서비스와 데이터에 대해 전문가가 아닐 수 있다. 그래서 LLM 기반의 질의응답 구조를 설계했다. 단순히 질문을 던지고 답을 받는 게 아니라, 사용자 언어를 이해하고, 의도를 파악해서 각 의도에 맞게 적절한 데이터나 해답을 연결하는 흐름이 필요했다. 이에 필요한 프롬프트와 사전학습 구조를 만들고, 메타데이터를 정리하고, 응답 포맷을 만들며, 필요시 쿼리를 작성해서 데이터에 연결하는 등 전체적인 프로세스를 다듬었다. 이 작업은 생각보다 창의적이고 흥미로웠다.

그리고 이 모든 과정엔, 수많은 이해관계자와의 조율과 협업이라는 또 다른 ‘연결’이 필요했다.. 데이터 분석가, 엔지니어, 프론트엔드 및 백엔드 개발자, 디자이너, 공공기관 담당자, 내부 의사 결정권자, 협력업체… 다양한 사람들이 다양한 목적과 이해관계를 가지고 함께 나아가는 프로젝트에서, 나는 AI및 데이터 과학자나 조직 리더 이상으로 기획자이자 PM, 데이터 설계자이자 연결자의 역할을 맡았다. 무언가 하나로 정의할 수는 없는 이름이었다. 하지만 내가 하는 일은 다양하게 확장되었고, 이는 힘들지만 흥미로운 경험이었다. 사람들은 ‘데이터’를 각각 다르게 생각하고, 요구사항도, 사용하고자 하는 방식도 다 다르다. 누군가는 전체를 보고 이를 엮어서 큰 그림을 완성시켜 나가야 했다.

이번 프로젝트는 굉장히 새롭고 화려한 기술이 중심이었던 건 아니다. 오히려 중요한 건 사용자를, 기술을, 사람들을 잘 엮어내는 것이었다. 그리고 어쨌든, 이를 엮어서 하나의 ‘데이터 서비스’라는 편물을 만들어냈다. 그 안의 연결고리는 밖에서는 안 보여도 상관없다. 매끈하게 사용자부터 데이터, 내부와 외부까지 잘 이루어진다면 그것만으로 된 것이다.

데이터가 서비스가 되려면, 또 다른 새로운 연결이 필요하다. 그리고 나는 데이터를 넘어, 더 넓은 맥락과 흐름을 설계하고 엮어내는 일의 재미와 의미를 알게 되었다. 그리고 이런 일도, 앞으로 더 많이, 잘 하게 될 일이라는 확신도 함께 얻었다.

    This post is licensed under CC BY 4.0 by the author.

    202501-202503 책 후기

    -