Home DDP를 말할 때 같이 고려해 볼 것들(1)
Post
Cancel

DDP를 말할 때 같이 고려해 볼 것들(1)

데이터를 흐르게 한다, 데이터 거버넌스를 한다, 사내에서 데이터를 더 적극적으로 쓰게 한다 등등의 데이터 정책에 관련된 이야기를 할 때, 혹은 이렇게 묵직한(?) 주제까지 가지 않더라도, ‘데이터 찾기가 너무 어려워요’ 할 때, ‘데이터 명세서’ 는 늘 언급되고는 한다. 그리고 기술이 어느 정도 발전한 오늘날에는, 이 ‘데이터 명세서’도 보다 업그레이드된 형태로도 쓸 수 있다. DDP(Data Discovery Platform)라는 것이 이 일환으로 생겨난 것 중 하나다.

(이 DDP 아님)

데이터의 중요성이야 이제 굳이 이 글에서 같이 이야기할 필요도 없이 장삼이사 다들 아는 이야기겠지만, 정작 많은 회사들이 데이터를 말하면서 본인들이 어떤 데이터를 가지고 있고, 이 데이터들이 어떻게 연결되어있고, 언제 어디가 바뀌었고, 어떤 점이 부족한 지에 대해서는 잘 인지하고 있지 못한다. 그러다 이에 대해서 본격적으로 들여다 보려고 하면 ‘이 데이터 아는 사람!’ 하고 데이터에 대해 알고 있는 사람들을 수소문한다. 이 사람들은 보통 회사에 정말 오래 있었던 IT인력들, 혹은 DB 관리자, 혹은 해당 기능을 구현한 프로그래머, 어떤 경우에는 해당 기능을 기획한 기획자이기도 하다. 그리고 이 사람들이 퇴사를 하거나 자리를 비우면 일이 미뤄지거나, 다른 사람들이 대충 추측해서 데이터를 쓰다가 실수를 하는 일이 일어나곤 한다.

그래서 데이터 관리에서는 옛적부터 ‘데이터 명세’를 기록하는 것이 매우 중요한 일이었다. 그리고 데이터의 형태를 잘 기록하기 위해 여러 방법이 고안되어 왔다. 하지만 누구에게나 그렇지만 문서화는 매우 고된 일이고, 다른 일이 많은 경우에는 항상 뒤로 미뤄지기 일쑤다. 문서화 자체는 당장 하지 않으면 서비스가 안 돌아가는 일은 아니기 때문이다. 하지만 결국 이런 데이터에 대해 기록하는 것은 늘 미뤄지고 미뤄져 왔다. 어쩌다 큰 맘먹고 데이터 명세를 정리하는 것을 주요 업무로 끌어왔다고 하더라도, 데이터는 서비스가 개선되고 비즈니스가 변경되면서 같이 변경되기 나름이고, 이 경우 데이터 명세 역시도 같이 기록되어야 하지만 이런 것을 매번 꼼꼼히 챙기기에는 많은 경우 다들 바쁘고, 인력은 부족하다. 결국 명세서 어딘가에는 구멍이 생기고, 그 구멍은 시간이 가면서 점점 커진다. 그리고 이렇게 구멍이 커지다보면, 그 때까지 여전히 규모를 키우는 대규모의 회사는 차세대/ 데이터 거버넌스 어쩌고 하는 프로젝트를 하면서 수많은 돈을 들여서 그 문서를 새로 만들거나, 어차피 시스템을 뒤엎는다며 문서도 처음부터 싹 들어엎는 일을 반복한다. 작은 회사는 늘 인력이 부족하기 때문에, 그나마 남아있는 사람들의 머릿속에 의존하거나, 꼭 필요하면 데이터를 남기는 코드를 들여다보면서 어딘가에 적어둔다. 그리고 그 것은 또 다시 몇몇 사람들의 지식으로 들어간다.

하지만 오늘날, 데이터라는 것이 갑자기 중요해지고, ‘빅데이터’가 나오면서 그 크기나 규모, 적재 속도 등이 빠르게 증가했으며, 머신러닝 및 인공지능이 급 대두되면서 ‘데이터가 머신러닝의 석유’같은 이야기가 이어지면서, 데이터의 중요성은 급속히 높아졌다. 사람들은 너도나도 우리는 데이터가 많다고 신나했다. 그리고 그 데이터가, 생각보다 활용하려니 구멍이 많다는 것이 점점 드러났다. 데이터를 잘 관리해야 한다는 말은 데이터 관련한 사람들의 고루한 옛이야기정도로 치부하던, 새로운 트렌드를 열심히 좇던 사람들이, 데이터를 활용하고 뭐고 데이터를 제대로 관리하고, 데이터의 정책을 제대로 마련하는 것이 얼마나 중요한 지를 이제서야 깨닫고 있다. MDM(Master Data Management), 데이터 스키마 관리, 데이터 거버넌스 같은 말들이 그저 오래되고 고루한 데이터 관리자들이 뭔가 옛날 이야기 한다고 멀리하던 사람들이, 이 단어들에 먼지를 털고, 마치 자신들이 새로 발견한 양 꺼내들면서 우리도 무언가를 해야 한다고 말한다. 아, 여전히 이런 말을 하는 사람이라도 있으면 다행인지도 모른다.

하지만 이미 너무 빠르게 변하는 세상에 얼른 적응하고 수익을 내는 데에 익숙해진 많은 회사들은, 여전히 데이터가 중요하고 관리와 기록을 좀 더 제대로 해야겠다는 것은 알면서도 여기에 최대한 리소스를 덜 할애하고 싶다. 데이터를 관리하는 사람들이 극히 적은 회사도 부지기수다. 어차피 변할 무언가를 기록하고 수시로 관리할 자신도 없다. 그래서 최소한 손은 적게 쓰면서, 필요한 만큼의 데이터 이력 관리는 하고 싶다. 그 때 이런 필요성을 충족시켜줄 것 같이 등장한 것이 DDP (Data Discovery Platform) 다.

(2부에서 계속…)

    This post is licensed under CC BY 4.0 by the author.

    파이썬을 활용한 베이지안 통계(2판) 번역 후기

    DDP를 말할 때 같이 고려해 볼 것들(2)