데이터 재식별화

데이터 재식별화(data re-identification, 再識別化), 비익명화(de-anonymization)는 익명 데이터('비식별화된 데이터')를 데이터에 속한 개인을 식별하기 위해 이미 공개된 정보나 보조 데이터와 일치시키는 과정이다.[1] 이것은 개인정보를 다루는 기관, 의료 제공자, 금융 기관이 데이터가 비식별화 과정을 거친 이후 수집된 데이터를 공개할 수 있다는 우려가 있다. 비식별화 과정은 직간접 식별자마스킹, 일반화, 삭제를 수반한다. 그러나 이러한 과정에 보편적인 정의는 존재하지 않는다. 퍼블릭 도메인 내 정보는 심지어는 익명화되어 보이더라도 사용 가능한 다른 데이터와 기초적인 컴퓨터 과학 기법을 조합하여 재식별화가 가능하다.

더욱 더 많은 데이터가 인터넷에 공개되고 있다. 이 데이터는 출처의 개인정보 보호를 보장하기 위해 이름, 주소, 주민등록번호 등의 개인 식별 정보(PII)를 제거하는 등 일부 익명화 기법을 거쳐 공개된다. 이러한 보장은 정부가 합법적으로 제안된 데이터 집합을 별도의 권한을 요구하지 않고도 타사와 공유할 수 있게 해준다. 이러한 데이터는 연구원들, 특히 의료 분야 연구원들에게 매우 가치가 있는 것으로 입증되고 있다.

각주

  1. Lee, So-Jin; Jin, Chae-Eun; Jeon, Min-Ji; Lee, Jo-Eun; Kim, Su-Jeong; Lee, Sang-Hyun (2016년 12월 30일). “De-identification Policy Comparison and Activation Plan for Big Data Industry”. 《The journal of the convergence on culture technology》 2 (4): 71–76. doi:10.17703/jcct.2016.2.4.71. ISSN 2384-0358. 

같이 보기

참고 문헌