(이미지=셔터스톡)
(이미지=셔터스톡)

인터넷에 공개된 콘텐츠로 훈련하는 생성 인공지능(AI) 모델에 심각한 문제가 생길 수 있다는 지적이 나왔다. ‘챗GPT’나 ‘스테이블 디퓨전’ 같은 생성 인공지능(AI) 도구가 발달하면서 인터넷 상에 AI로 생성한 콘텐츠가 폭발적으로 늘고 있는 때문이다.

GPT 시리즈 같은 언어모델이나 스테이블 디퓨전은 사람이 만들어낸 글이나 이미지를 학습해 만들어진 생성 AI 모델이다. 그런데 이 모델들이 생성하는 콘텐츠의 양은 시간이 갈수록 인터넷에 쌓이면서 미래에는 인간이 만든 콘텐츠의 양을 능가할 수 있다.

이렇게 될 경우 인터넷 상의 글과 이미지를 훈련 데이터로 쓸 수 밖에 없는 차기 생성 AI 모델들은 성능이 저하되고 콘텐츠에서 더 많은 오류가 나오는 ‘모델 붕괴’ 현상이 나타날 수 있다는 경고다.

벤처비트는 일리아 슈마일로프 캐임브리지 대학 교수 등이 논문 게시 사이트인 아카이브에 올린 ‘재귀(recursion)의 저주’라는 논문에서 이런 위험을 경고했다고 12일(현지시간) 보도했다. 

연구자들은 메타AI가 개발한 AI 모델인 ‘OPT-125m’를 AI 생성 콘텐츠로 훈련했다. 이 과정에서 텍스트와 이미지 생성 결과의 확률 분포를 계산한 결과 ‘모델 붕괴’ 현상이 나타나는 것을 발견했다고 밝혔다.

(이미지=셔터스톡)
(이미지=셔터스톡)

슈마일로프 교수는 이와 관련해 ‘모델 붕괴’ 현상이 나타나는 이유는 AI 모델이 학습과정에서 원본 데이터 중 지배적인 데이터를 수용하면서 부분적인 데이터는 쓰지 않는 속성 때문이라고 벤처비트에 설명했다. 

예를 들어 AI 모델에게 고양이에 대해 학습시키면서 파란색 고양이 10마리와 노란색 고양이 90마리의 사진을 데이터로 보여주면 모델은 노란색 고양이에 집중한다. 이후 고양이를 생성하도록 하면 모델은 처음엔 파란색 고양이가 노란 빛을 조금 띄게 만들어낸다.

그러나 이런 훈련과정이 무수히 반복되면 모델은 어느 순간 녹색 고양이를 만들어 내고 결국은 모두 노란색 고양이를 만들게 된다고 슈마일로프 교수는 설명했다. 이런 점진적인 왜곡과 소수 데이터 특성의 손실은 결국 데이터가 오염되는 결과여서 모델이 잘못된 현실 인식을 하게 만들어 ‘붕괴’로 이어진다는 것이다.

논문의 다른 저자인 로스 앤더슨 에딘버러대 교수는 블로그에서 우리가 바다로 플라스틱 쓰레기를 버리고 대기를 이산화탄소로 오염시킨 것 처럼 인터넷을 AI 생성 콘텐츠라는 '허튼 소리'로 채우고 있다고 꼬집었다. 이 때문에 웹을 스크랩해서 새 AI 모델을 교육하기가 어려워 지고 있는 것이라고 지적했다.    

연구자들은 따라서 이런 결함을 방지하려면 결국 인간이 생성한 원본 데이터가 오염되지 않도록 관리하고 양도 늘려야 한다고 조언했다. 이렇게 하려면 AI 생성 콘텐츠와 인간의 콘텐츠를 구별하기 위한 대규모 라벨링 매카니즘이나 개발자와 AI 기업의 노력이 있어야 한다고 덧붙였다. 

정병일 기자 jbi@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지