(사진=알리바바)
(사진=알리바바)

알리바바가 20분 이상 영상 분석이 가능한 새로운 인공지능(AI) 모델을 출시했다. 이미지나 비디오를 입력하면 관련 답을 내놓는 기능을 갖췄으며, 오픈 소스 공개라는 점이 눈에 띈다.

벤처비트는 29일(현지시간) 알리바바가 시각적 이해, 영상 이해 및 다국어 텍스트-이미지 처리를 강화하도록 설계된 비전언어모델(VLM) ‘큐원2-VL(Qwen2-VL)’을 출시했다고 보도했다.

큐원2-VL은알리바바의 간판 모델인 '큐원2'를 기반으로 구축했다.

다국어로 된 손글씨를 분석하고 구별하며, 정지 이미지에서 여러 객체를 식별, 설명 및 구분할 수 있는 기능을 제공한다. 또 20분 이상의 영상을 분석하고 내용에 대한 질문에 답할 수 있으며, 라이브 비디오를 거의 실시간으로 분석하여 요약이나 피드백을 제공할 수 있다. 영어, 중국어, 대부분의 유럽 언어, 일본어, 한국어, 아랍어, 베트남어 등의 언어를 지원한다.

▲큐원2-VL-72B ▲큐원2-VL-7B ▲큐원2-VL-2B 등 세가지 버전으로 출시된다. 7B 및 2B 버전은 허깅페이스와 모델스코프에서 오픈 소스로 제공되며 상업적 용도로 사용가능하다. 그러나 72B 버전은 별도 라이선스 및 API를 통해서만 제공될 예정이다.

메타의 '라마 3.1', 오픈AI의 'GPT-4o', 앤트로픽의 '클로드 3 하이쿠', 구글의 '제미나이-1.5 플래시' 등과 비교한 벤치마크 테스트에서 인상적인 성능을 기록했다.

벤치마크 결과 (사진=알리바바)
벤치마크 결과 (사진=알리바바)

휴대폰과 로봇과 같은 장치에 온디바이스 AI로 통합될 수 있으며, 시각적 환경과 텍스트 지시를 기반으로 자동화된 작업을 수행할 수 있다.

더불어 제3자 소프트웨어, 앱 및 도구와의 통합을 가능하게 하는 함수 호출 기능과 타사 정보 소스로부터 시각적으로 정보를 추출하는 기능을 지원한다. 

이 외에도  모델이 다양한 해상도의 이미지를 처리할 수 있게 해, 시각적 해석의 일관성과 정확성을 보장하는 '나이브 동적 해상도(Naive Dynamic Resolution)'와 모델이 텍스트, 이미지, 비디오 전반에 걸쳐 위치 정보를 동시에 캡처하고 통합할 수 있게 하는 '멀티모달 회전 위치 임베딩(Multimodal Rotary Position Embedding)' 기능을 제공한다.

연구진은 "1년간의 끊임없는 노력 끝에 오늘 큐원2-VL을 출시하게 돼 기쁘다"라며 "가까운 미래에 우리는 다음 버전 언어 모델에 더 강력한 비전 언어 모델을 구축하고 더 많은 모달리티를 옴니 모델로 통합하기 위해 노력할 것"이라고 밝혔다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지