(사진=알리바바)
(사진=알리바바)

알리바바가 '딥시크-R1'과 오픈AI 'o1'을 능가하는 추론 모델을 오픈 소스로 출시했다. 딥시크에 잠시 내줬던 오픈 소스 최강 타이틀을 확실하게 되찾은 모습이다.

알리바바는 6일 허깅페이스를 통해 'QwQ-32B'를 오픈 소스로 출시했다. '아파치 2.0 라이선스'에 따라 연구는 물론, 상업적인 목적으로도 사용할 수 있다.

이 모델은 매개변수가 671억개인 R-1의 절반밖에 안 되는 320억개 규모지만, 성능은 뒤지지 않는다는 것이 특징이다. 

물론, R-1은 '전문가 혼합(MoE)' 방식이기 때문에 활성화되는 매개변수는 37억개로 줄어든다. 그럼에도 여전히 QwQ-32B가 더 작다. 따라서 비용면에서도 더 유리하다는 설명이다.

벤치마크에서는 수학과 코딩에서만 R1에 근소하게 뒤졌을 뿐, 상식 등 3개 분야에서는 R1을 모두 앞섰다. 또 o1에는 지시 준수(IFEval)에서만 떨어졌을 뿐, 나머지 4개 분야에서는 모두 이겼다.

알리바바는 이를 강화학습(RL)의 결과라고 강조했다. 

또 이 모델은 2단계의 학습법을 도입했다. 우선 수학적 추론 강화를 위해 정확도 검증기를, 코딩 강화를 위해 코드 실행 서버를 사용해 학습했다. 즉, 생성된 답변의 정확도를 먼저 확인한 뒤 추론으로 강화하는 방식이다.

이어 일반 보상 모델과 규칙 기반 검증기를 사용, 보상 기반 훈련을 진행했다. 이를 통해 수학이나 코딩 능력을 손상하지 않고도 지시 이행, 인간 정렬, 에이전트 추론 능력 등을 개선할 수 있었다는 설명이다.

이처럼 RL 기반 추론 기능을 통해 정확하고 체계적이며 상황에 맞는 답을 낼 수 있어, 데이터 분석이나 전략 수립, 소프트웨어 개발, 지능형 자동화 등에서 AI 에이전트로도 유용하다는 설명이다.

알리바바는 "이런 발전은 RL의 혁신적 잠재력을 보여줄 뿐만 아니라 인공일반지능(AGI)을 위한 추가 혁신을 위한 길을 열었다"라고 강조했다.

벤치마크 결과 (사진=알리바바)
벤치마크 결과 (사진=알리바바)

그동안 알리바바의 행보를 보면 이번 성과를 이해할 수 있다. 지난해 11월 처음으로 추론 모델인 'QwQ-프리뷰'를 출시하며, 오픈AI에 도전장을 내밀었다. 당시에는 'o1-프리뷰'나 'o1-미니'와 비슷한 성능을 달성했다.

이어 12월에는 최초의 멀티모달 추론 모델 'QvQ-72B-프리뷰'를 출시했다. 또 지난달 26일에는 비디오 및 이미지 생성 AI 모델 ‘완 2.1(Wan 2.1)’을 오픈 소스로 공개, 인간 선호도 벤치마크인 IM아레나에서 동영상 모델 부분 1위에 올랐다.

또 1월 말에는 비추론 모델 '큐원 2.5 맥스(Qwen 2.5 Max)'를 통해 처음으로 '딥시크-V3'를 능가한다고 발표했다. 이를 기반으로 개발한 추론 모델 ‘QwQ-맥스(QwQ-Max)’도 프리뷰 버전으로 출시했다.

이처럼 최근 3개월 동안 최고 수준의 오픈 소스 모델 6개를 잇달아 출시한 것이다. 특히 비추론과 추론 모델 두 분야에서 모두 딥시크 성능을 능가하게 됐다.

전문가들도 일제히 QwQ-32B에 찬사를 보냈다. 

바이합 스리바스타브 허깅페이스 데이터 과학자는 "QwQ-32B의 추론 속도가 엄청나게 빠르며, 최상위 모델과 비슷하다"라고 밝혔다. 또 "R1과 o1-미니를 능가한다"라고 강조했다. 또 처비(Chubby)라는 AI 평론가는 "세상에! 큐원이 해냈다"라며 R1보다 더 성능이 뛰어나다고 감탄했다.

이런 까닭에 알리바바 주가는 이날 홍콩 증시에서 최대 8.2%까지 급등했다. 이는 2주 만에 가장 큰 상승폭이다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지