최첨단 멀티모달모델(LMM)이 놀라운 성능을 보임에도 불구하고, 실제 세계의 규칙과 환경을 제대로 이해하고 표현하는 데에는 한계가 있다는 연구 결과가 나왔다. 즉겉보기에는 똑똑해 보이지만, 아직 세계 모델로 성장하는 데에는 한계가 있다는 내용이다.
MIT와 하버드대학교, 코넬대학교 연구진 등은 15일(현지시간) 오픈AI의 'GPT-4'나 앤트로픽의 '클로드 3 오퍼스'와 같은 LMM이 실제 세계에 대한 일관된 이해가 부족하다는 연구 결과를 아카이브에 공개했다.
연구진은 뉴욕시에서 운전 경로를 단계별로 제공하는 과제를 수행했다고 소개했다.
이 모델들은 비교적 정확한 방향 안내를 생성했지만, 실제로는 존재하지 않는 거리나 경로가 포함된 오류가 발견됐다.
특히 우회로나 도로 폐쇄 등 예상치 못한 변화가 추가되면 정확도가 급격하게 떨어지는 것으로 나타났다. 이는 자율주행 자동차와 같은 동적 환경에서 현재 LMM이 제대로 작동하지 않는다는 것을 의미한다.
이번 연구는 LMM이 넓은 분야에 활용되기 위해서는 일관된 ‘세계 모델(World Model)’로 개선될 필요성을 보여준다.
LMM은 대규모 데이터셋을 학습해 세계 모델을 생성하고, 이를 통해 답을 추론한다. 하지만 생성된 세계 모델이 부정확하다면, 예상치 못한 경로 변경과 같은 상황에서 AI 네비게이션이 실패할 수 있다.
연구진은 게임 규칙이나 네비게이션 경로와 같은 상태의 순서를 포함하는 ‘결정적 유한 오토마타(DFA)’를 사용해 '트랜스포머' 아키텍처 기반 LMM의 실제 세계 규칙 이해의 정확성과 일관성을 테스트했다. 즉, 오델로 게임과 뉴욕시 거리 예시를 사용해 모델을 평가했다.
평가 지표는 두가지다. 첫째는 ‘순서 결정(sequence determination)’으로, LMM이 다른 상태들을 비교해 일관된 세계 모델을 형성했는지 확인한다. 둘째는 ‘순서 압축(sequence compression)’으로, 동일한 상태를 인식하고 같은 순서의 단계를 따를 수 있는지를 평가했다.
또 두가지 유형의 LMM을 테스트했다. 하나는 랜덤 데이터로 훈련했고, 다른 하나는 전략적 데이터를 기반으로 훈련했다.
그 결과, 랜덤 데이터로 훈련한 LMM이 더 정확한 세계 모델을 형성한 것으로 나타났으며, 이는 더 넓은 범위의 가능한 단계를 경험했기 때문으로 분석된다.
하지만 한계가 두드러졌다. 오델로에서는 유효한 수를 생성하고 정확한 방향을 제시했지만, 오델로의 일관된 세계 모델을 생성한 모델은 하나뿐이었다. 또 뉴욕의 정확한 지도를 생성한 모델은 하나도 없었다.
연구진은 "이 연구는 예기치 않은 변화에 대한 현재 모델의 어려움을 해결할 수 있는 보다 정확한 세계 모델을 만들기 위한 새로운 접근법이 필요함을 강조한다"라고 밝혔다.
한편, 세계 모델은 LMM의 다음 발전 단계로 여겨지고 있다. 페이페이 리 스탠포드대학교 교수의 월드랩이나 메타의 얀 르쿤 수석과학자 등이 이를 개발 중이다.
박찬 기자 cpark@aitimes.com
