라마V-o1의 시각적 추론, 과학적 분석 및 의료 영상을 포함한 다양한 추론 작업 사례 (사진=아카이브)
라마V-o1의 시각적 추론, 과학적 분석 및 의료 영상을 포함한 다양한 추론 작업 사례 (사진=아카이브)

아랍에미레이트(UAE) 연구진이 금융 차트 해석부터 의료 영상 진단에 이르기까지 복잡한 멀티모달 작업에서 시각적 데이터를 해석해 단계별 추론을 제공하는 인공지능(AI) 모델을 출시했다.

벤처비트는 13일(현지시간) UAE의 모하메드 빈 자이드 AI 대학(MBZUAI) 연구진이 텍스트와 이미지에서 복잡한 추론 작업을 해결할 수 있는 AI 모델 ‘라마V-o1(LlamaV-o1)’에 관한 논문을 아카이브에 게재했다고 보도했다. 이 학교는 세계 최초의 AI 대학으로 잘 알려진 곳이다.

전통적인 AI 모델은 보통 최종 답만 제공하고, 그 답이 어떻게 나왔는지 설명하지 못하는 경우가 많다. 하지만, 라마V-o1은 사람처럼 문제를 단계별로 해결하고, 사용자가 모델이 어떤 과정을 거쳐 답을 도출했는지 확인할 수 있게 해 준다. 해석이 중요한 분야에서 특히 유용하다는 평이다.

예를 들어, 의료 영상 분석에서는 방사선 전문의는 AI가 제공한 진단 결과뿐만 아니라, 결론에 이르게 된 과정을 알아야 한다. 라마V-o1은 전문가들이 검토하고 검증할 수 있는 단계별 추론까지 제공한다는 설명이다. 

연구진은 라마V-o1을 추론 작업에 최적화된 데이터셋 'LLaVA-CoT-100k'를 사용해 사전훈련한 뒤, 콘텐츠 생성부터 대화형 에이전트까지 다양한 작업에 적합하도록 최첨단 커리큘럼에 따라 미세조정했다.

특히 '빔 서치(Beam Search)'를 활용해 추론 경로를 최적화하고 계산 효율성을 향상했다. 빔 서치는 모델이 병렬로 여러 추론 경로를 생성한 뒤 가장 논리적인 경로를 선택할 수 있게 하는 접근 방식으로, 정확성을 높이는 동시에 모델 실행에 필요한 계산 비용을 줄일 수 있다.

연구진은 모델 출시와 함께 ‘VRC-벤치’라는 벤치마크도 소개했다. 이는 AI 모델이 문제를 단계별로 추론하는 능력을 평가하기 위해 설계됐으며, 1000개 이상의 다양한 샘플과 4000개 이상의 추론 단계를 포함한다. 

VRC-벤치의 최종 답변 정확도와 단계별 추론 성능 비교 (사진=아카이브)
VRC-벤치의 최종 답변 정확도와 단계별 추론 성능 비교 (사진=아카이브)

VRC-벤치를 활용한 성능 테스트 결과, 라마V-o1은 'GPT-4o-미니' 및 LLava-CoT에 비해 더 높은 최종 답변 정확도(56.49%)를 기록했으며, 68.93%의 추론 단계 점수를 기록했다. 이는 오픈 소스 모델인 LLaVA-CoT(66.21%)는 물론, '클로드 3.5 소네트'과 같은 일부 폐쇄형 모델보다도 우수한 성능을 보였다.

매쓰비스타(MathVista), AI2D 등 벤치마크 평균 점수에서도 'GPT-4(71.8%)'에 이어 67.33%의 점수를 기록하며 LLaVA-CoT(63.50%)를 능가했다. 

VRC-벤치의 벤치마크 결과  (사진=아카이브)
VRC-벤치의 벤치마크 결과  (사진=아카이브)

속도도 경쟁 모델보다 빠르다는 설명이다. 연구진은 “6개의 벤치마크에서 평균 점수 기준으로 3.8%의 절대적 성능 향상을 제공하며, 추론 확장 시 속도는 5배 더 빠르다"라고 주장했다.

금융 분석 및 차트와 도표 이해 분야에서도 뛰어난 성능을 보였다. VRC-벤치 테스트를 통한 시각적 데이터 해석 작업을 다른 모델보다 뛰어난 성적으로 처리했다.

VRC-벤치의 출시도 모델 만큼이나 중요한 의미를 가지고 있다는 평이다. 기존 벤치마크가 최종 정답의 정확성에만 초점을 맞추는 반면, VRC-벤치는 개별 추론 단계의 품질을 평가해 AI 모델의 역량을 더 세밀하게 분석할 수 있기 때문이다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지