이미지와 텍스트 입력에 대답하는 푸유-헤비 (사진=어뎁트)
이미지와 텍스트 입력에 대답하는 푸유-헤비 (사진=어뎁트)

'인공지능(AI) 에이전트' 개발로 잘 알려진 스타트업 어뎁트가 새로운 멀티모달 언어모델(LMM)을 출시했다. 가벼운 사이즈에 강력한 성능을 유지하면서 LMM 중 'GPT4-V'와 '제미나이 울트라' 등에 이어 세번째로 뛰어난 성능을 발휘한다고 강조했다.

마크테크포스트는 27일(현지시간) 어뎁트가 디지털 에이전트를 위해 설계된 새로운 LMM ’푸유-헤비(Fuyu-Heavy)’를 공개했다고 보도했다.

이에 따르면 푸유-헤비는 소프트웨어와 API 도구를 사용하는 지능적인 AI 비서를 구축하기 위한 LMM의 소형 버전이다. 특히 광범위한 주제가 아닌 그래픽 사용자 인터페이스(GUI)와 합성된 훈련 데이터를 사용한 것이 특징이다.

AI 에이전트와 챗봇과의 통합을 위해 설계된 ‘푸유-8B(Fuyu-8B)’ 모델을 확장하고 최적화했다. 이 모델은 모든 해상도의 이미지를 처리하고, 그래프와 다이어그램을 이해하고, UI를 기반으로 자연어 질문에 답하고, 이미지 내 개체의 세밀한 위치 파악을 제공할 수 있다.

MT-Bench 및 AlpacaEval1.0 벤치마크 결과 (사진=어뎁트)
MT-Bench 및 AlpacaEval1.0 벤치마크 결과 (사진=어뎁트)

어뎁트에 따르면 푸유-헤비는 다른 모델보다 작지만, 다양한 벤치마크에서 뛰어난 성능을 기록했다.

단순함에도 불구하고 모델은 시각적 질문 답변 및 자연스러운 이미지 캡션과 같은 표준 이미지 이해 벤치마크에서 우수한 성능을 발휘했다. 응답 시간이 빠르고 100밀리초(ms) 이내에 큰 이미지를 처리할 수 있다. 또 텍스트 전용 평가를 위한 MMMU 벤치마크에서도 더 큰 모델과 동등하거나 이를 능가하며 뛰어난 성능을 기록했다. 

MMLU 벤치마크 결과 (사진=어뎁트)
MMLU 벤치마크 결과 (사진=어뎁트)

특히 MMLU 벤치마크에서는 10~20배 더 큰 GPT4-V와 제미나이 울트라만이 앞선 성능을 보여, 푸유-헤비는 세계에서 세번째로 성능이 뛰어난 LMM이라는 주장이다. 

어뎁트는 가장 작은 버전인 '푸유-8B'를 오프 소스로 공개했다.

한편 앞서 마이크로소프트(MS)는 지난해 11월 텍스트뿐 아니라 이미지를 이해하고 답변할 수 있는 LMM ‘파이-1.5(Phi-1.5)’를 공개한 바 있다. 놀라운 것은 매개변수가 고작 13억개(1.3B)에 불과한 경량 모델로, 훨씬 적은 비용과 시간으로 다른 LMM에 맞먹는 결과를 얻을 수 있다고 주장했다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지