DDP를 말할 때 같이 고려해 볼 것들(3)

(2부에서 계속…)

하지만, DDP가 대두되게 된 이유를 다시 한 번 생각해 보자. 데이터의 시대라고 하면서 여기저기서 데이터 어쩌고 말은 많이 하지만, 실제로 데이터를 사용하려면 장벽에 부딪치고, 많은 경우 그 것은 ‘우리에게 어떤 데이터가 있는 지’에 대한 것이었다. 그리고 DDP가 잘 되어 있다면 이런 문제를 해결하는 데에 분명 ‘직접적으로 영향을 미친다’. 그냥 도움을 준다 그 이상인 것이다. 다만 그 ‘DDP를 잘 만들기’가 쉽지 않을 뿐이다.

어떤 기업에서 ‘DDP를 잘 만들고 유지/관리가 잘 되도록 하며 모두가 손쉽게 활용하도록 하기’가 잘 된다면 분명 그 기업에서는 데이터가 원활하게 흐를 것이고, DDP는 이 흐름에서 중요한 펌프의 역할을 할 수 있을 것이다. 하지만 이 펌프를 잘 만든다는 것은 고양이 목에 방울 달기 같은 것이다. 방울은 누가 달까? DDP 플랫폼을 어디에선가 설치를 할 수는 있을 것이다. 하지만 DDP 플랫폼을 도입하는 것 자체는 DDP의 시작에 불과하다. 데이터 탐색을 위한 플랫폼은, 결국 탐색을 할 수 있는 데이터의 정보를 안에 채워넣는 것부터가 시작이다.

데이터 메타 정보 채워넣기

그 정보를 채워넣는 것은 누구의 몫일까? 이는 각각의 회사마다 다소 다를 수 있다. 하지만 중요한 것은, 해당 데이터를 ‘가장 잘 아는’ 사람들이 결국은 엮이기 마련이다. 데이터에 대해서 잘 모르거나, 부정확하게 아는 사람이 정보를 채워넣어봐야 잘못되거나 이빨 빠진 정보만 들어가기 마련이고, 이렇게 만들면 결국 DDP에서 데이터를 탐색하더라도 데이터를 제대로 쓸 수 없기 때문이다. 그래서 내용을 채우는 사람은 데이터를 가장 잘 아는 사람에게 계속 물어보거나, 데이터를 가장 잘 아는 사람이 직접 채우게 된다. 일회성으로 누군가가 적당히 채운다고 하더라도, 데이터에 대한 정보는 계속 갱신되고, 새로 만들어지고, 사라지기도 한다. 그럼 이런 변경내역도 꾸준히 관리해야 한다. 주기적으로 내용을 보정한다든가, 갱신한다든가 해야 한다. 어느 정도는 자동으로 될 수도 있겠지만, 외적 요인에 의한 변경을 자동으로 인지하고 그것을 사람이 이해할 수 있는 형태로 풀어주는 것에는 자동으로는 한계가 있다. 그래서 ‘데이터를 가장 잘 아는 사람’에게 이 역할이 주어지는 것이 이상적이다.

그렇다면 ‘데이터를 가장 잘 아는 사람’은 누구일까? 그 데이터를 가장 많이 사용하는 사람일까? 그럴 수 있다. 하지만 원론적으로는, ‘해당 데이터를 만들고 관리하는 사람’일 것이다. 데이터를 많이 사용하는 사람도 결국 이 사람들에게 의지해서 데이터를 사용해 왔을 것이기 때문이다. 데이터를 기록하도록 만든 사람은, 해당 데이터가 어떤 시점에, 어떤 경우에 기록되는 지를 가장 정확하게 알고 있다. 그리고 데이터를 관리하는 사람은, 해당 데이터가 어떤 시점에 누적되고 어떤 주기로 업데이트되거나 집계되는 지 같은 것을 가장 잘 알고 있다. 이 사람들이 이런 규칙을 실제로 구현했기 때문이고, 이런 규칙이 변경되더라도 가장 먼저, 그리고 가장 정확하게 알 수 있는 사람들이다.

사람들이 찾아보는 사전의 신뢰도는 최신성과 정확성에서 온다. 그렇다면 일종의 데이터 사전인 DDP 역시 신뢰도를 위해서는 최신성과 정확성이 보장되어야 하고, 이를 위해서는 이 데이터 정보를 기록하는 사람들이 이 데이터에 대한 최신의 정확한 지식을 가져야 한다. 그래서 일반적으로는 이 사람들이 직접 DDP에 데이터 정보를 기록하는 것을 권장한다. 업무량이나 여러 이유로 인해서 다른 사람이 DDP 정보 관리자가 된다고 하더라도, 이 사람들과 결국은 긴밀하게 연결될 수밖에 없을 것이다.

데이터 오너십

이는 데이터 오너십(Data Ownership)과도 연결되는 문제다. 어떤 곳에서는 데이터를 주도하려고 하는 사람들이 많고, 어떤 곳에서는 데이터까지 담당할 여력이 안 된다고 손을 놓기도 한다. 그래서 데이터에 대해서 잘 아는 사람들의 행방이 묘연하고, 행방을 찾는다고 하더라도 이 사람들이 데이터를 잘 알기는 하지만 데이터를 담당해야 하는 것인가에 대해서 갑론을박이 오간다. 물론 이런 곳들은 다들 나름의 사연이 있고, 이를 한 두 가지 유형만으로 묶어서 말하기는 어렵겠지만, ‘데이터 관리’ 입장에서는 결국 최신성과 정확성이 희석될 수 있어, 답답할 수밖에 없는 노릇이다.

사람의 지식을 시스템화해서 보전하고 관리하는 것은 그 것이 무엇이 되었든 어려운 문제다. 그간 수많은 지식관리시스템이 실패, 혹은 잘 되어도 일부의 성공, 혹은 단기간의 성공에 그치고 마는 것은 다 이런 연유에서다. DDP 역시 데이터에 대한 일종의 지식 관리/검색 시스템이기 때문에, 이 역시 여타 지식관리시스템과 궤를 같이 한다. 여러 플랫폼에서 몇 가지 자동 기능을 들고 나오지만, 이 역시 이전 다른 지식관리시스템에서 없었던 것들이 아니다. 결국은 DDP 이상의, 데이터 오너십에 대한 인적자원배분 및 관리 정책의 이야기다.

데이터 거버넌스

이를 전반적으로 통칭하는 말로 데이터 거버넌스(Data Governance)라는 말이 있다. 데이터 거버넌스란 뭘까? 데이터 거버넌스는 데이터 표준 및 정책에 따라 데이터를 생성-변경하고 생성된 데이터의 가용성-유용성-무결성과 보안을 관리하는 프로세스다. 이 정의에서 주요 단어를 골라보면 ‘데이터 표준’, ‘데이터 정책’ , ‘데이터 관리’, ‘프로세스’가 있다. 그리고 DDP는 데이터 표준, 정책, 데이터 관리, 프로세스 모두와 긴밀한 접점을 가진다. 데이터를 남기고, 집계하고, 기록하는 것은 데이터 표준과 관련이 있어, 이를 잘 수립해야 DDP로 옮기고 관리하는 것 역시 용이하다. 데이터 정책은 앞서 언급한 데이터 오너십과도 연관이 있다. 데이터 관리나 프로세스는 굳이 이야기하지 않아도 될 것이다.

데이터 거버넌스를 수립하는 데 있어서 어떤 곳에서는 큰 규모의 프로젝트를 하고, 어떤 곳에서는 컨설팅을 받고, 어떤 곳에서는 새로 부서를 만든다. 이런 게 잘 운용되는 것 역시 중요할 수 있다. 하지만 모든 것은 다 실제로 데이터가 기업 내에 잘 흘러서, 데이터를 원활하게 하기 위한 것이다. 그리고 이는 기업의 형태와 규모, 인적 자원, 데이터 사용 성숙도 등에 따라서 굉장히 달라질 것이다. 하지만 어떤 경우에서도, 데이터 거버넌스를 운영하는 데에서 실질적으로 중요한 것은 결국 어떤 외부의 필요에 의해서가 아닌, 실질적으로 ‘데이터 생산자’가 데이터에 대해서도 이해하고, 운영하는 데에 긴밀하게 연결될 수 있도록 하는 것이다. 기업의 규모와 상관없이, 데이터가 잘 흐르는 데에 있어서 많은 것은 여기에서부터 시작할 것이다. 개발을 하고, 데이터 시스템을 관리하고 하는데 데이터 어쩌고까지 하라니 당사자들은 부담스러울 수도 있을 것이다. 이에 대해서 짐을 덜어주고 적절한 책임과 힘을 실어주는 것은 기업이 잘 풀어야 할 일이다. 물론, 당사자부터 주변 사람들과 조직까지 이 것이 왜 필요한 지에 대해서 이해하는 것도 한 가지 숙제일 것이다. 그리고 이렇게 데이터의 시작부터 흐름을 이해하고, 관리체계를 만들기 시작하고, 데이터 메타 정보를 채워나가다 보면, 자연스럽게 어떤 ‘데이터 거버넌스’라는 것의 맥락까지도 잡힐 터다. 갈 길이 멀긴 하겠지만, 일단 바람직한 방향으로 물꼬를 틀었으니, 그 이후에 가는 길도 훨씬 순탄할 것이다.


DDP는 데이터를 활용하는 데에 좋은 도구가 될 수 있다. 하지만 데이터라는 것은 각 기업마다 형태와 상황과 내용이 다르고, 중요한 것은 데이터의 존재보다는 그 내용과 품질, 그리고 활용법인 만큼, 도구도 도구 자체보다는 그 안에 무엇을 채워넣는가, 어떻게 길들이느냐가 중요하다. 그래서 DDP를 도입하는 그 자체는 데이터의 용례와 출처를 이해하는 데에 도움을 줄 수 있지만, 이 것이 실질적인 도움이 되려면 그 이전에 데이터를 어떻게 관리할 것인지에 대한 정책에 대한 고민이 있어야 한다. 하지만 이 고민을 잘 정리하고 답을 찾아나간다면, DDP나, 혹은 다른 데이터 관련 무언가 역시 훨씬 순탄하게 좋은 방향으로 도움을 줄 것이다. 이 물길을 풀어나가는 것은 각자의 문제겠지만. 아마도 잘 풀다 보면 DDP, 혹은 데이터를 활용하는 것에 있어서는 역시 어느 정도 비슷한 형태의 행복한 집이 될 것이다.

Written on December 20, 2022