가명정보와 익명정보

2020년 8월 5일 부터 개인정보보호법, 신용정보법, 정보통신망법(데이터 3법)에 근거하여 금융회사, 상거래 기업 등이 개인정보를 가명정보, 익명정보화 해서 안전하게 거래하고 활용할 수 있게 되었다.

하지만 이 문장이 실질적으로 와닿지는 않을 것이다. 가명정보는 뭐고 익명정보는 무엇인지, 무슨 근거로 데이터를 안전하게 활용할 수 있다는 것인지, 어떻게 활용할 수 있는 것인지 말이다.

물론 금융감독원 등에서는 이에 대한 자세한 가이드 문서를 주었지만 그것을 다 읽기는 길고 다소 지루할 수 있어(물론 나 및 필요한 사람들은 꼼꼼히 잘 읽어야 한다) 상식 선에서 필요한 내용만 간단히 정리해 보았다.

가명정보와 익명정보란?

가명정보는 가명처리한 개인정보고, 익명정보는 익명처리한 개인정보다.

잠시 당연한 이야기를 해보았다. 하지만 이 것은 참고 문서에 나와있는 정의를 그대로 옮긴 것이다.

「신용정보법」에서, 가명정보는 어떤 신용정보주체와다른 신용정보주체가 ‘구별’되더라도 특정 신용정보주체를 식별할 수 없는 경우에는 가명정보로 본다. 익명정보의 경우는 더 이상 특정 개인인 신용정보주체를 알아볼 수 없도록 만든 정보다.

그럼 가명과 익명의 차이는 무엇일까?

가명은 ‘가짜 이름’, 익명은 ‘이름을 숨김’으로 생각하면 된다. 그럼 ‘가명정보’는 ‘가짜 이름을 가진 정보’, ‘익명정보’는 ‘이름을 숨긴 정보’다. 그래서 가명정보는 가짜 이름화-가명처리가 된 개별 정보가 그대로 있고, 익명정보는 익명처리-이름이 사라진 정보-된 개별 정보가 존재한다. 하지만 이름이 아예 사라진 정보는 보통 동일한 정보 여러 개가 되기 때문에, 보통 집계의 형태로 나타난다.

다음과 같은 예를 들 수 있다.

위 그림과 같이, 가명정보는 식별자의 경우 해시값 등의 고유값을 만든 후 삭제하고, 식별정보(생년월일 등)는 적당한 단계로 일반화(연도만 남김, 범주화 등)한다.

익명정보의 경우 식별자는 지우고, 식별정보는 범주화하거나 내부에서만 알아볼 수 있도록 코드화(성별 등)한다.

그러면 가명처리/익명처리를 할 때 사용하는 정보는 어떤 것들이 있을까?

가명처리/익명처리

가명처리 시에는 해당 정보의 활용 방안과 위험도에 대해서 구체적으로 분석한 후 가명처리 수준을 결정하게 된다.

가명처리

가명처리는 주로 식별자 대체값을 생성하는 것으로 이루어진다. 일반적으로 랜덤값 생성, 해시값 생성, 암호화 기법 방식을 사용하며, 그 외 동일한 수준의 안전성을 보장하는 방법을 사용할 수 있다.

이 때 대체 식별자를 만드는 데 사용된 키나 알고리즘, 매핑 테이블은 분리되어 안전한 곳에 관리되어야 한다. (「신용정보법」 제40조의2)

또한 식별가능정보의 경우에는 가명처리 후에도 추가 정보와 결합했을 때 식별 가능할 수 있다. 이 때 식별가능정보는 적당한 수준의 정보로 범주화 혹은 대치되어야 한다. 식별가능정보별 처리 방안 예시 일부를 다음에 가져와 보았다.

또한 이렇게 만들어진 가명정보가 혹시 재식별 가능한 지(완성된 가명 정보로 특정인을 파악할 수 있는 지 확인) 위험도를 파악하고 보호 방안을 살펴야 한다.

익명처리

익명처리의 경우 식별자를 삭제하는 것이 원칙이다. 단 부득이하게 식별자가 필요한 경우 적절하게 익명처리를 해서 사용한다. 식별가능정보의 경우에는 범주화 정도를 높인다. (예: 나이를 5세 단위로 구분하는 대신 10세 단위로 구분함)

익명처리에는 대표값으로 사용, 데이터 삭제, 데이터 범주화, 데이터 마스킹 및 프라이버시보호모델 등 여러 가지 기법을 단독 또는 복합적으로 활용한다. 암호화, 하나의 데이터를 두 개로 나누기, 잡음 추가, 무작위화 등의 방법 역시 사용할 수 있다.

프라이버시보호모델로 주로 사용되는 것은 k-익명성 방법이다. ~~(한국의 k 아님)~~ 동일한 속성을 가지는 레코드가 최소한 k개 이상 존재하도록 하여 프라이버시를 보호하도록 하는 방법이다.

다만 이 방법에도 집단을 통해 개인정보를 추론할 수 있는 등의 약점이 있어서(예: A지역의 모든 60대 남자의 신용등급은 8등급 -> A지역에 사는 60대 남자, 박철수의 신용등급은 8등급), 이를 보완하기 위해 민감속성정보가 최대한 I개를 가지게 하여 집단을 만드는 I-다양성모델이 사용되기도 한다.

하지만 값이 이미 쏠려있는 그룹의 경우 I-다양성 모델을 만들기 어려울 수 있어, 이 경우 t-근접성 모델을 사용할 수 있다. 이 모델은 특정 동질집합의 개인식별가능정보 분포와 전체 데이터의 개인식별가능정보 분포 차이를 t 이하가 되도록 조정(t가 0에 가까울수록 분포가 유사하며, 이를 통해 특정집단의 개인식별가능정보 추론문제 보완)하는 방식이다.

이 외에도 차분 프라이버시 개인정보 보호 모델 등의 여러 익명화를 위한 모형이 개발되고 있다.

개인정보, 가명정보, 익명정보의 활용 범위

가명정보는 통계작성(상업적 목적을 포함), 연구(산업적 연구를 포함),공익적 기록보존 등을 위하여 가명정보를 제공하는 경우에는 개인인 신용정보주체의 동의 없이 가명정보를 활용할 수 있다(「신용정보법」 제32조제6항제9호의2). 이 경우 통계작성에는 시장조사 등 상업적 목적으로 수행하는 통계작성을 포함하며, 연구에는 대학, 연구소 등 연구기관 뿐 아니라기업 등이 수행하는 산업적 연구를 포함한다. 다만, 특정 개인을 식별할 수 있는 형태의 통계작성, 연구, 공익적 기록 보존 등의 행위는 모두 허용되지 않는다.

익명정보는 특정 개인인 신용정보주체를 알아볼 수 없도록 개인신용정보를 처리한 것으로, 개인을 알아볼 수 없는 정보임을 전제로, 별도의 제한 없이 사용할 수 있다. 이 때 익명 정보는 신용정보회사 등이 금융 위원회에 적정성 평가를 요청하면, 데이터전문기관에 위탁하여 평가를 할 수 있다.

개인정보의 가명/익명처리와 활용 내용을 예를 들어서 살펴보자.

나의 기본적인 연락처 및 소득은 개인정보다. 이에 대해서는 ‘나의 허가’ 없이는 어느 곳에서도 이 정보를 외부로 유출하거나 할 수 없다. 하지만 내가 허락했다고 기록이 되었다면 허락한 범위 안에서 활용 가능하다. (보통 많은 서비스의 경우 가입 약관이나 중간에 약관이 변경되는 경우 확인 가능하다.)
내 연락처를 가린 채 ‘ID 1: 서울 관악구 거주: 월 300만원’ 이란 데이터는 통계를 내거나(추가 가공), 연구, 혹은 경제문헌 등의 공익적 기록을 위해서는 굳이 나에게 허가를 받지 않고도 사용할 수 있다. 하지만 누군가 ID 1이 나라는 것을 알거나, ID 1: 010-1234-4567 이라는 다른 정보를 알아와서 결합하거나, 서울 관악구 거주하는 사람 중 월 300만원을 버는 사람이 나밖에 없다는 정보를 어디선가 알게 된다면 이 정보가 나라는 것을 알 수 있을 지도 모른다.
‘서울 월 300만원 소득자 2560명 ‘ 이라는 정보 안에 내가 포함된 정보는 이게 나와 상관이 있는 지 그 누구도 알 수 없으며, 개인정보를 어떻게도 추정하는 것이 불가능하다. 그러므로 이 정보는 나에게 동의를 얻지 않고도 상업적으로 쓰든 보도를 하든 아무런 상관이 없다.

가명정보/익명정보의 처리

적정성이 보장된 익명정보는 자유롭게 활용 가능하다. 하지만 가명정보 이용기관은 가명정보를 적확한 목적을 가지고 적확한 용도로, 명시한 범위 내에서만 사용해야 하고, 기술적/관리적/물리적으로 보호 조치가 충분하게 되어 있어야 하며, 개인정보 보호 관련해서 문제가 없어야 한다. 또한 사용 기관은 가명정보를 다른 기관이나 외부에 무단으로 제공하거나 노출하지 않고, 법적인 문제가 없는 업무상의 신뢰도가 있어야 한다.

꼬리말

데이터를 자유롭게 잘 활용하면 좋지만, 개인정보가 다수 포함된 데이터의 경우 사용하기 매우 번거로운 경우도 많다. 무슨 제약사항은 이렇게 많고, 보안 문제는 왜 이렇게 까다로운가 싶은 순간이 한 두 번이 아니다. 물론 보안 쪽에서 안전을 위해서 무조건 안된다고 하는 경우도 없잖아 있다. 하지만 특히 타인의 정보는 어느 정도의 부담을 가지고 사용해야 한다고 생각한다. 그리고 신용정보 관련 법도 (가끔은 다소 과하다 싶을 정도로) 유연하게 개정되고 있어서, 잘 이해만 하고 있다면 보안이나 다른 정보 보호와 관련된 집단과도 합의점을 찾아가면서 데이터를 잘 활용할 수 있으며, 정보제공자 역시 본인의 정보가 어떻게 사용되어야 하는 지도 이해할 수 있다. 또한 가명정보와 익명정보에 대해 이해하고, 문제를 해결하는 데에 개인정보를 날로 쓰는 것보다는 이런 형태의 처리가 된 정보를 최대한 활용할 수 있도록 하면 개인정보보호와 문제 해결 양쪽에 모두 도움이 될 것이다. 이에 대해서 더 상세한 관심이 생긴다면 레퍼런스의 내용을 직접 읽어보자. 여기에서 누락한 좋은 정보도 많다.

Reference

[공공정보 개방 공유에 따른 개인정보 가명처리 및 익명처리 안내서], 금융위원회, 2022 (대부분의 내용과 그림은 여기에서 가져왔습니다.)

가명정보와 익명정보

가명정보와 익명정보란?

가명처리/익명처리

가명처리

익명처리

개인정보, 가명정보, 익명정보의 활용 범위

가명정보/익명정보의 처리

꼬리말

Reference

Further Reading

BigQuery ML을 활용한 다변량 시계열 예측(feat. GDG DevFest 2022)

데이터셋을 만들고 모델링까지 한 번에 할 수 있지만 (feat. BQML)

인과 관계의 다양한 구조와 분석 방안