알리바바, AI 에이전트용 비전-언어모델 '큐원2.5-VL-32B' 출시

박찬 기자
입력 2025.03.27 17:30
댓글 0

이 기사를 공유합니다

알리바바가 제한적인 리소스에서도 고성능을 발휘하는 새로운 비전-언어모델(VLM)을 출시했다. 모바일 AI 에이전트용으로 적합한 모델이라는 설명이다.

알리바바는 24일(현지시간) 이미지와 텍스트 데이터를 해석하고 유용한 정보를 생성하는 VLM ‘큐원2.5-VL-32B-인스트럭트’를 무료 출시했다.

이 모델은 이미지 속 객체를 인식하고 텍스트, 차트, 아이콘, 그래픽, 레이아웃 등을 분석하는 데 뛰어난 성능을 보여, 시각 데이터를 처리하는 데 매우 효과적이라고 전했다.

또 한시간 이상의 비디오를 분석하고 관련된 구간을 식별할 수 있는 능력을 가지고 있다.

이미지를 분석해 객체를 정확하게 식별하고, 테두리나 점을 생성해 안정적인 JSON 출력을 제공하는 객체 위치 지정 기능도 뛰어나다. 이는 실시간 이미지 처리 및 분석에 유용한 기능이다.

청구서, 양식, 표 등과 같은 데이터를 구조화된 형태로 출력할 수 있어, 금융 및 상업 용도의 데이터 분석을 효율적으로 처리할 수 있게 한다고 덧붙였다.

이런 기능들로 인해 휴대폰과 컴퓨터를 구동하기 위해 도구를 사용하는 능력을 가진 '시각 에이전트' 역할을 할 수 있다고 강조했다. 이를 입증하기 위해 휴대폰 앱에서 항공편을 예약하는 장면도 공개했다.

더 큰 모델들의 성능을 능가, 모바일과 같이 제한된 리소스에서도 활용성이 높다는 것을 보여줬다.

비전 작업에서 이 모델은 'MMMU(Massive Multitask Language Understanding)' 벤치마크에서 70.0점을 기록하며, 이전 모델인 '큐원2-VL-72B'의 64.5점을 넘어섰다.

또, '메스비스타(MathVista)'에서는 74.7점을 얻어 이전 모델의 70.5점을 능가했으며, 'OCR벤치V2(OCRBenchV2)'에서는 57.2/59.1점을 기록하며 기존 이전 47.8/46.1점을 크게 넘어섰다. '안드로이드 제어'에서도 69.6/93.3점을 기록, 이전 모델의 66.4/84.4점을 끌어 올렸다.

텍스트 작업에서도 우수한 성과를 보였다. 'MMLU'에서 78.4점, 'MATH'에서 82.2점, '휴먼이밸(HumanEval)'에서 91.5점을 기록하며, 'GPT-4o 미니'와 같은 모델들을 일부 영역에서 능가했다.