익명의 데이터란 사실상 존재하지 않는다는 연구가 발표됐다.
벨기에의 루뱅 대학교와 영국의 임페리얼 칼리지 런던이 네이처 커뮤니케이션스에 발표한 공동 연구는 인구 통계에서 흔히 사용하는 속성인 생일, 우편번호, 성별만으로 이름과 이메일 주소와 같은 사용자의 데이터를 83%의 정확도로 찾아낼 수 있었다.
연구팀은 자체 개발한 머신 러닝 프로그램을 사용했으며 5개 또는 그 이상의 사용자 속성이 주어지자 정확도가 99%에 달했다. 사실상 온라인 상의 익명성이 존재하지 않는다는 것이 증명된 것이다.
인터넷을 사용하기 위해 인터넷 서비스 업체에 가입하고 인터넷 서비스 업체는 고객에게 개인의 데이터를 제3자에게 공급하지 않을 것을 약속하지만 온라인 활동의 특정 주체를 추적하는 게 사실상 가능하다는 걸 연구진이 입증한 셈이다.
이번 연구를 주도한 루뱅 대학교 박사 과정에 있는 룩 로처 씨는 “뉴욕시에 사는 30대 남성이 많을지 모르지만, 1월 5일에 태어나고 빨간색 스포츠카를 몰며 2명의 자녀와 개 한 마리가 있다면 그 수는 훨씬 적습니다”라고 CNBC와의 인터뷰에서 말했다.
‘생성 모델을 사용하는 불완전한 데이터세트의 신원 재확인 성공 측정’이란 제목의 이 연구는 유럽연합의 일반 개인정보 보호법(GDPR)과 캘리포니아주 소비자 사생활 보호법(CCPA)과 같은 현재의 데이터 보호법이 요구하는 익명화의 기준이 강화될 필요가 있다고 지적하고 있다.