인공지능의 미확인 상호작용 데이터 분석, 익명성 뚫고 52.4%의 정확도로 개인 식별
인공지능의 미확인 상호작용 데이터 분석, 익명성 뚫고 52.4%의 정확도로 개인 식별

[미디어파인 칼럼 = 이상원 기자] 당신이 군중들과 어떻게 상호작용하는지는 적어도 인공지능은 그 답을 알고 있을 것이다. 연구원들은 한 대상 개인 연락처의 상호작용뿐만 아니라 그 대상 개인의 휴대폰 상호작용에 대한 정보를 입력하면, 인공지능은 익명의 4만 명 이상의 휴대폰 서비스 가입자 중에서 그 대상을 정확하게 선택할 수 있다고 보도했다. 이 연구 결과는 인간이 익명으로 추정되는 데이터 세트들 중에서 그들을 골라내는 데 사용될 수 있는 방식으로 사회를 나눈다는 것을 시사한다.

사람들이 기존의 사회권 안에 남아 있는 경향이 있고, 이러한 규칙적인 상호작용이 시간이 지남에 따라 안정적인 패턴을 형성한다. 이런 것을 사용해서 인공지능은 그 개인을 식별할 수 있다는 것이다.

유럽 연합의 일반 정보 보호 규정과 캘리포니아 소비자 프라이버시 법에 따르면, 사람들의 일상적인 상호작용에 대한 정보를 수집하는 회사들은 사용자들의 동의 없이 이 데이터를 공유하거나 판매할 수 있다. 문제점은 그 데이터가 익명으로 처리되어야 한다는 것이다.

과학자들은 사람들의 사회적 행동이 익명의 사용자들의 상호작용에 대한 정보를 포함하는 데이터 세트에서 그들을 골라내는 데 사용될 수 있다고 가설을 세웠다. 그들의 가설을 시험하기 위해, 연구원들은 사용자들의 주간 사회적 상호작용의 패턴을 인식하도록 인공 신경망을 가르쳤다. 테스트를 위해, 연구원들은 14주 동안 43,606명의 가입자들의 상호작용을 상세히 기술한 미확인 휴대폰 서비스의 데이터로 신경망을 훈련했다. 이 데이터는 각 상호작용의 날짜, 시간, 지속시간, 유형(통화 또는 문자), 관련 당사자들의 가명, 그리고 누가 통신을 시작했는지를 포함했다.

각각의 사용자의 상호작용 데이터는 사용자와 그들의 연락처를 나타내는 노드들로 구성된 거미줄 모양의 데이터 구조로 조직되었다. 상호작용 데이터로 스레드화된 문자열들은 노드들을 연결했다. 그 인공지능은 알려진 사람의 상호작용 웹을 보여준 다음 가장 유사한 웹을 익명화된 데이터를 검색하기 위해 느슨하게 설정되었다.

그 신경망은 익명의 데이터 세트에서 가장 최근의 기록 후 일주일 후에 발생한 한 대상의 전화 상호작용에 대한 정보를 포함하는 상호작용 웹이 보였을 때 14.7%의 개인들을 자신과 연결했다. 그러나 대상의 상호작용뿐만 아니라 그들의 연락처의 정보도 주어졌을 때 인공지능은 52.4%의 사람들을 식별했다. 연구자들이 익명의 데이터 세트 후 20주 후에 수집된 대상과 연락처의 상호작용 데이터를 AI에 제공했을 때, AI는 여전히 24.3%의 시간 동안 사용자를 정확하게 식별했으며, 이는 사회적 행동이 장기간 동안 식별 가능함을 시사한다.

AI가 다른 곳에서 사회적 행동을 프로파일링할 수 있는지 알아보기 위해, 연구원들은 익명의 대학생 587명의 4주간의 근접 데이터로 구성된 데이터 세트에서 테스트했다. 여기에는 학생들의 가명, 접촉 시간, 수신된 신호의 세기로 구성된 상호 작용 데이터가 포함되었다. 이러한 메트릭은 종종 COVID-19 접촉 추적 응용 프로그램에서 수집된다. 대상과 그들의 접촉자의 상호 작용 데이터가 주어졌을 때, AI는 데이터 세트에서 학생들을 정확하게 26.4% 식별했다. 인공지능 기술의 발전만큼 사생활 보호의 중요성도 커지고 있다. 

[이상원 칼럼니스트] 
고려대 산업경영공학과(재학 중)
미디어파인 대학생칼럼니스트 겸 기자

저작권자 © 미디어파인 무단전재 및 재배포 금지