중국에는 딥시크만 있는 것이 아니다. 전통적인 오픈 소스 강자 알리바바가 최신 모델 '큐원2.5-맥스(Qwen2.5-Max)를 출시했다. 특히 딥시크 돌풍의 시작이 된 'V3'의 성능을 능가한다고 강조했다.
알리바바는 28일 홈페이지를 통해 '전문가 혼합(MoE)' 방식을 활용한 큐원2.5-맥스를 공개하고 API를 출시했다. 이번에는 오픈 소스 출시가 아니다.
이 모델은 20조개가 넘는 토큰으로 사전 학습하고 인간 선호도에 맞춘 감독미세조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)으로 미세조정한 대형언어모델(LLM)이다. 딥시크-V3처럼 MoE로, 적은 매개변수만 사용해 모델의 효율성을 높였다고 소개했다.
매개변수나 학습 데이터 등은 공개하지 않았다. 대신, 벤치마크 결과를 강조했다. 비교 모델로는 V3를 비롯해 '라마 3.1-405B', 'GPT-4o', '클로드 3.5 소네트' 등을 동원했다. 추론 모델인 오픈AI의 'o1'과 딥시크의 'R1'은 포함하지 않았다.
그 결과 큐원2.5-맥스는 추론 능력을 가리는 벤치마크 '아레나-하드(Arena-Hard)'와 '라이브벤치(LiveBench)' 등 2개 분야에서 1위를 차지했다.
이 외에도 'MMLU-프로'와 'GPQA-다이아몬드' 등 지식 테스트와 '라이브코드벤치'에서도 GPT-4o와 클로드 3.5 소네트에 맞먹는 성능을 보였다. 특히 5개 분야 모두에서 딥시크-V3의 성능을 모두 능가했다.
V3는 지난해 12월26일 출시된 모델로, ▲6710억개의 매개변수로 오픈 소스 사상 최대 규모 ▲MoE 방식을 통해 매개변수 340억개만 활성화하는 방식으로 추론 비용과 메모리 사용량 절감 ▲엔비디아 'H800' GPU로 2개월간 557만달러(약 82억원)만으로 학습한 점 등으로 딥시크 열풍의 시동을 걸었다.
이전까지 큐원 시리즈로 오픈 소스 최강자 중 하나로 꼽혔던 알리바바가 V3를 누르기 위해 내놓은 것이 큐원2.5-맥스다. 매개변수나 훈련 비용은 밝히지 않았으나, MoE를 강조한 점이나 벤치마크 결과는 V3와 매우 흡사하다.
알리바바는 큐원2.5-맥스가 아직 개발 중이라며 "이번 벤치마크로 상당한 강점을 입증했으며, 새로운 사후 학습을 통해 차세대 큐원2.5-맥스는 새로운 차원으로 도약할 것이라고 낙관한다"라고 밝혔다.
현재 이 모델은 기존 플랫폼인 '큐원 채팅'에서 이용 가능하다. 또 알리바바 클라우드의 '모델 스튜디오'를 통해 API를 이용할 수 있다.
한편, 지난 22일에는 바이트댄스가 기존 모델 ‘두바오(Daubao)’를 업그레이드한 추론 모델 ‘두바오-1.5-프로’를 출시했다. 이 모델은 o1을 타깃으로 한 것으로, 벤치마크에서 o1과 비슷한 성능을 보였다. 또 딥시크의 R1처럼 높은 성능뿐만 아니라 비용이 저렴하다는 강점을 내세웠다.
이처럼 최근 중국의 주요 AI 회사는 오픈AI 모델은 물론, 중국 라이벌을 타깃으로 잇달아 고성능 모델을 쏟아내고 있다.
박찬 기자 cpark@aitimes.com
- 딥시크, 'V3' 미세조정 버전 'R1' 오픈 소스 출시..."o1 동일 성능에 비용 90% 저렴"
- 딥시크, 오픈 소스 사상 최대 규모 LLM 출시..."GPT-4o 따라 잡았다"
- 바이트댄스, 오픈AI 추론 모델 추격하는 '두바오-1.5-프로' 출시
- 딥시크의 등장이 애플의 희망?...아이폰 판매 하락에도 주가 상승
- '큐원' 최신 모델, 인간 선호도 평가에서도 '딥시크-V3' 넘어서
- 바이두 CEO "딥시크 잡을 멀티모달모델 하반기 출시"
- 알리바바, 시진핑 면담 이후 중국 AI 핵심으로 부상...대규모 투자 계획 발표
- 알리바바, 비디오 생성 AI 모델 오픈 소스 출시…추론 모델 ‘QwQ-맥스’도 공개
- 알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증"
- MoE 문제 해결하는 'CoE' 등장..."효율성과 정확성 향상"
- 바이트댄스, MoE 효율 1.7배 높이는 기술 공개..."GPU 절감 가능"
- 알리바바, AI 에이전트용 비전-언어모델 '큐원2.5-VL-32B' 출시
