[분석] 이루다 사건, 문제는 AI모델과 데이터 정제...GPT-3에서 예견된 사태 < 산업일반 < AI산업 < 기사본문

AI전문가들은 이미 알고 있었다. 소수자 차별·혐오 발언부터 개인정보 유출까지 논란의 중심에 선 인공지능(AI) 챗봇 이루다의 주요 문제 원인은 AI모델 내 기술적 결함이었다.

이루다는 오픈AI의 대규모 언어모델인 GPT-3와 같은 생성모델 방식을 사용하는데 해당 AI모델의 개인정보유출 문제는 학계와 업계에서 기존에 널리 알려진 사실이라는 것이다. 예견된 결함이 있던 모델을 연구 영역을 넘어 상용화한 부분에서 스캐터랩에 윤리적 책임을 물어야 한다는 지적이다.

기업의 데이터 비식별화 작업 감시에만 집중하는 것도 해답이 될 수 없을 것으로 보인다. 스타트업들은 대기업과 달리 인력이 크게 부족한 상황에서 제대로 된 비식별화를 진행하기 거의 불가능하다는 입장이다.

보안 전문가는 정부와 기업들이 데이터양만큼 데이터 정제에도 노력을 기울여야 한다고 비판했다. 특히 데이터 민감도에 따라 등급을 매기는 작업이 시급하다는 주장이다.

◆GPT-3와 같은 생성모델 이루다, 개인정보 유출 예견된 일

이루다가 갑작스럽게 특정 주소와 계좌번호, 연인 간 대화 등을 노출했던 이유는 데이터 비식별화 이전에 생성모델이라는 AI 모델 자체에서 나온 문제라는 것이 전문가들의 분석이다.

국내 AI 연구원 A씨는 “10억건 정도의 방대한 데이터를 무작위로 학습한 대규모 생성모델에서는 과적화가 일어나 일부 문장 데이터를 거의 그대로 외워 학습할 수 있다. 이 때 AI에게 유도심문하듯 리버스 엔지니어링을 하면 갑자기 특정 데이터를 술술 말하게 된다”고 설명했다.

다른 국내 AI 연구원 B씨도 “이루다와 같은 생성모델인 GPT 시리즈에서 이미 개인정보유출 문제가 제기된 바 있다”면서 관련 논문을 제시했다.

'대규모 언어 모델에서 학습 데이터 추출하기'라는 제목의 이 논문에서는 GPT-2에 대해 특정 학습 데이터 추출을 시도했고 수백개의 텍스트 시퀀스를 추출하는데 성공했다. 연구팀이 추출한 데이터에는 이름, 전화번호, 이메일 주소와 같은 민감한 개인 정보가 포함됐다.

문제는 이와 같은 생성모델의 개인데이터 유출 문제는 기존 AI계에서 널리 알려진 사실이라는 점이다. 즉, 해당 문제를 숙지하고 있었음에도 생성모델을 상용화해 대책없이 이루다 서비스를 출시한 스캐터랩에 윤리적 책임이 있다는 의미다.

A연구원은 “스캐터랩이 이 문제를 몰랐을 리 없다. 생성모델을 연구하는 것은 당연히 필요한 일이다. 다만 이를 실제 사람을 대상으로 서비스하는 것은 한참 이른 일”이라며 “마이크로소프트의 테이가 몇 시간만에 종료한 후 재가동되지 않는 이유가 있다”고 강조했다.

그는 “이루다는 물론 대기업들도 아직은 생성모델을 만들 때가 아니다. 현재로서는 특정 질문에 대한 대답이 비교적 예상가능한 분류 특화 모델이나 원문을 조합, 요약한 결과를 내놓는 요약적 생성모델을 서비스하는 것이 최선이라고 본다”고 전했다.

◆대기업만 가능한 데이터 비식별화...자연어분야 특히 난제

데이터 비식별화 작업에 대한 기업 감독을 강화하는 것만으로는 상황을 타개할 수 없다는 의견도 나왔다. 데이터 비식별화를 제대로 진행할 수 있는 인프라가 함께 조성되지 않는다면 결국 소수 대기업만이 AI 챗봇을 만들 수 있다는 것이다.

A연구원은 “자연어 데이터 비식별화는 완전 자동화되지 않았다. 패턴을 통한 자동 비식별화 후 인간 작업을 하든지 혹은 인간이 전체 비식별화를 담당한다. 2가지 방법 모두 인력과 돈이 많이 필요한 것은 매한가지”라고 설명했다.

이어 “지금 상황에서 스타트업이 데이터 비식별화를 제대로 진행하는 것은 거의 불가능에 가깝다”며 “결국 자연어처리 기반 서비스 영역에서 스타트업과 대기업 간 격차가 더욱 벌어질 것”이라고 말했다.

데이터 전처리 기업 슈퍼브에이아이 김현수 대표도 데이터 비식별화 작업에 드는 비용이 상당함을 강조했다.

김현수 대표는 “데이터 비식별화 작업은 상당한 시간과 인력이 드는 과정이다. 흔히 AI 개발 업무에 드는 최대 80% 시간이 데이터 라벨링에 소요된다고 하는데, 큰 범주에서 보면 이러한 비식별화 작업도 데이터 라벨링에 속한다”고 말했다.

이어 “비식별화 작업을 쉽게 생각하면 이미지에서 사람 얼굴 정도를 검출해서 마스킹 처리하는 것으로 볼 수 있지만, 생각보다 이미지에는 개인 정보를 드러낼 수 있는 수많은 정보들이 있다. 예를 들어 옷, 영수증, 신용카드, 책 등 주변에 보이는 모든 정보들을 종합해 AI가 사람의 개인정보를 얻어낼 수도 있다는 의미”라고 설명했다.

다른 형식에 비해 보다 비정규화된 자연어라는 데이터 성격 또한 비식별화 작업을 어렵게 한다는 설명이다. 컴퓨터비전, 의료영상 데이터는 대부분 비식별화를 위한 자동 프로그램을 사용한다. 기업의 서비스 혹은 기관의 연구 등 데이터 사용 목적에 따라서도 차이가 있다.

의료 AI 스타트업 딥노이드 김태규 연구소장은 “의료영상데이터 비식별화는 대부분 의료기관에서 자동 소프트웨어로 이뤄진다. 국제표준규약인 다이컴에 따라 환자 이름, 성별, 나이 등 18개 개인정보를 영상 파일에서 모두 지우는 방식이다. 태그값을 지우는 것으로 과정이 복잡하거나 시간이 많이 걸리는 일은 아니다”라고 말했다.

그러면서 “자연어 데이터를 비식별화하는 일은 의료영상과 많이 다른 것으로 안다”고 전했다.

컴퓨터비전 기술을 주로 연구하는 유재연 서울대 연구원도 “데이터 수집을 위한 조사 시작 시점부터 성별, 나이와 같은 사항은 제외한다. 해당 내용이 포함되더라도 과제 종료 시점부터 3년에서 5년 이내에 폐기한다”며 “연구분야에서는 명확한 윤리 규정이 마련된만큼 이에 따르기만 하면 된다. 노동력이 크게 요구되지는 않는다”고 말했다.

◆중요도에 따른 데이터 등급화가 해답

데이터 비식별화 비용을 줄이기 위해서는 데이터를 중요도에 따라 등급별로 나누는 정책이 필요하다는 것이 보안 전문가의 제언이다.

김승주 고려대 정보보호대학원 교수는 데이터 비식별화 비용을 줄이고 개인정보 유출을 줄이기 위해 기업과 정부가 모두 데이터 정제에 주목할 것을 주문했다.

김 교수는 “비식별화 기술을 적절히 사용하기 위해서는 데이터 등급 분류가 핵심이다. 각 데이터를 중요도, 민감도에 따라 먼저 정의해야 한다. 이후 데이터 성격에 맞춰 각기 다른 비식별화 기술을 사용해야 한다는 것”이라고 설명했다.

그는 “우리나라는 보통 데이터를 개인정보, 금융정보, 의료정보로만 나누는데 이는 잘못된 방법이다. 금융정보 안에서 통장잔고와 대출내역은 중요도가 다르다. 의료정보에서도 혈액형과 질병내역은 다르게 취급돼야 한다. 이들 정보를 분류하는 것이 데이터 등급화”라고 덧붙였다.

데이터 등급화를 위해서는 정부와 기업이 모두 자진 행동해야 한다는 주장이다. 정부는 관련 가이드라인을 만들어야 하며, 기업은 해외 규정을 참고해서라도 자체적으로 시행할 수 있다.

김승주 교수는 “중국에서 최근 발표한 데이터 보호 법률의 골자는 데이터를 중요도에 따라 레벨을 나누는 것”이라며 “우리 정부의 데이터댐 사업에서는 데이터양만 늘리고 정제에 대해서는 신경쓰지 않는다. 물에도 1, 2, 3급수가 있다. 급수가 있어야 활용처를 정할 수 있다. 공업용수와 식수를 같은 방식으로 다룰 수 없는 것”이라고 전했다.

AI타임스 박성은 기자 sage@aitimes.com