이미지 생성 인공지능(AI)이 동음이의어(同音異義語)를 제대로 구분하지 못한다는 연구 논문이 나왔다.
'금붕어(goldfish)'를 '금(gold)'과 '붕어(fish)'로 인식하거나 '박쥐(bat)를 야구 배트(bat)로 이해하는 등 맥락과 동떨어진 결과를 생성하는 경우가 적지 않게 나오고 있다는 것이다.
애널리틱스 인사이트는 31일(현지시간) 이스라엘의 바-일란 대학교와 미국의 알렌인공지능연구소가 최근 세계 최대 온라인 논문 사이트인 'arXiv'에 '달리2는 두 가지를 보고 있다: Text2Image 모델의 언어-의미 매핑 결함'이라는 제목의 논문을 게재했다고 보도했다.
달리는 프롬프트 텍스트, 즉 단어를 입력하면 이미지를 만들어주는 프로그램이다. 연구진은 달리가 입력한 단어를 올바른 맥락에서 사용하는 지를 알아보기 위해 두가지 이상의 뜻을 가진 단어를 포함해 입력해 보았다.
그 결과 17개 단어로 생성한 이미지 216개 가운데 무려 80%에 달하는 결과물이 동음이의어의 한 가지 의미가 아닌 두 가지 이상의 뜻을 반영해 이미지를 만들어 낸 것으로 나타났다.
예를 들어 '물개(seal)'라는 단어를 포함할 경우 동물뿐 아니라 '봉투가 닫힌' 이미지가 함께 생성됐으며, '박쥐(bat)가 야구장 위를 날고 있다'는 프롬프트에는 박쥐와 더불어 야구장 위를 날고 있는 야구 배트 이미지가 나왔다. 또 '금붕어(goldfish)'는 금과 붕어를 따로 표현하는 실수를 저질렀다고 연구진은 밝혔다.
연구원들은 달리의 복잡성이 증가함에 따라 의미론적인 불일치가 더 두드러지는 것으로 분석했다. 실제로 달리보다 가벼운 프로그램인 '달리-미니'나 '스테이블 디퓨전'은 실수가 더 적었다.
이번 연구의 목표는 달리의 문제점을 찾는 것이 아니라 텍스트 인코딩이나 AI 생성 모델 개선을 위한 것이었다.
애널리틱스 인사이트는 "달리와 같은 대규모 프롬프트 기반 시스템은 아직 인간의 방식으로 사물을 연관할 준비가 덜 된 것 같다"며 "특정 AI에 대한 연구 논문이 등장할 정도로 이 분야가 최근 초미의 관심사가 되고 있다"고 강조했다.
임대준 기자 ydj@aitimes.com
