(사진=알리바바)
(사진=알리바바)

중국에는 딥시크만 있는 것이 아니다. 전통적인 오픈 소스 강자 알리바바가 최신 모델 '큐원2.5-맥스(Qwen2.5-Max)를 출시했다. 특히 딥시크 돌풍의 시작이 된 'V3'의 성능을 능가한다고 강조했다.

알리바바는 28일 홈페이지를 통해 '전문가 혼합(MoE)' 방식을 활용한 큐원2.5-맥스를 공개하고 API를 출시했다. 이번에는 오픈 소스 출시가 아니다.

이 모델은 20조개가 넘는 토큰으로 사전 학습하고 인간 선호도에 맞춘 감독미세조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)으로 미세조정한 대형언어모델(LLM)이다. 딥시크-V3처럼 MoE로, 적은 매개변수만 사용해 모델의 효율성을 높였다고 소개했다.

매개변수나 학습 데이터 등은 공개하지 않았다. 대신, 벤치마크 결과를 강조했다. 비교 모델로는 V3를 비롯해 '라마 3.1-405B', 'GPT-4o', '클로드 3.5 소네트' 등을 동원했다. 추론 모델인 오픈AI의 'o1'과 딥시크의 'R1'은 포함하지 않았다.

그 결과 큐원2.5-맥스는 추론 능력을 가리는 벤치마크 '아레나-하드(Arena-Hard)'와 '라이브벤치(LiveBench)' 등 2개 분야에서 1위를 차지했다. 

이 외에도 'MMLU-프로'와 'GPQA-다이아몬드' 등 지식 테스트와 '라이브코드벤치'에서도 GPT-4o와 클로드 3.5 소네트에 맞먹는 성능을 보였다. 특히 5개 분야 모두에서 딥시크-V3의 성능을 모두 능가했다.

벤치마크 결과 (사진=알리바바)
벤치마크 결과 (사진=알리바바)

V3는 지난해 12월26일 출시된 모델로, ▲6710억개의 매개변수로 오픈 소스 사상 최대 규모 ▲MoE 방식을 통해 매개변수 340억개만 활성화하는 방식으로 추론 비용과 메모리 사용량 절감 ▲엔비디아 'H800' GPU로 2개월간 557만달러(약 82억원)만으로 학습한 점 등으로 딥시크 열풍의 시동을 걸었다.

이전까지 큐원 시리즈로 오픈 소스 최강자 중 하나로 꼽혔던 알리바바가 V3를 누르기 위해 내놓은 것이 큐원2.5-맥스다. 매개변수나 훈련 비용은 밝히지 않았으나, MoE를 강조한 점이나 벤치마크 결과는 V3와 매우 흡사하다.

알리바바는 큐원2.5-맥스가 아직 개발 중이라며 "이번 벤치마크로 상당한 강점을 입증했으며, 새로운 사후 학습을 통해 차세대 큐원2.5-맥스는 새로운 차원으로 도약할 것이라고 낙관한다"라고 밝혔다.

현재 이 모델은 기존 플랫폼인 '큐원 채팅'에서 이용 가능하다. 또 알리바바 클라우드의 '모델 스튜디오'를 통해 API를 이용할 수 있다.

한편, 지난 22일에는 바이트댄스가 기존 모델 ‘두바오(Daubao)’를 업그레이드한 추론 모델 ‘두바오-1.5-프로’를 출시했다. 이 모델은 o1을 타깃으로 한 것으로, 벤치마크에서 o1과 비슷한 성능을 보였다. 또 딥시크의 R1처럼 높은 성능뿐만 아니라 비용이 저렴하다는 강점을 내세웠다. 

이처럼 최근 중국의 주요 AI 회사는 오픈AI 모델은 물론, 중국 라이벌을 타깃으로 잇달아 고성능 모델을 쏟아내고 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지