알리바바가 최근 출시한 '큐원2.5-맥스'가 인간 선호도 평가에서 '딥시크-V3'를 넘어섰다. 중국에서도 인공지능(AI) 분야에서 빠른 속도로 미국을 따라잡고 있다는 증거로 이를 강조했다.
사우스차이나모닝포스트(SCMP)는 6일 알리바바의 최신 모델이 챗봇 아레나에서 7위를 차지, 8위 딥시크-V3를 뛰어넘었다고 보도했다. 알리바바의 큐원2.5-맥스는 지난달 28일 출시 당시 벤치마크에서 V3를 앞섰다고 밝힌 바 있다.
챗봇 2개의 출력 내용을 무작위 블라인드 테스트 방식으로 평가, 많은 표를 얻은 챗봇 순위를 공개하는 IM아레나는 지난해부터 주요한 벤치마크로 떠올랐다.
특히 이날 순위에서는 큐원2.5-맥스가 출시 이후 가장 높은 7위에 랭크됐다. 또 IM아레나는 "큐원-맥스는 모든 도메인에서 강력하다. 특히 기술적인 도메인(코딩, 수학, 하드 프롬프트)에서 강력하다"라고 설명했다.
이에 대해 SCMP는 중국 기술 회사들이 AI 역량을 발전시키고 선도적인 미국 기업과의 격차를 좁히기 위해 치열한 경쟁을 벌이고 있음을 반영한다고 풀이했다.
또 리더보드 10위 안에 중국 모델이 4개나 포함된 것에 대해서도 강조했다. 딥시크-R1은 4위, 지푸AI의 'GLM4'는 9위에 올랐다.
이처럼 딥시크-V3는 이제 더 이상 '오픈 소스 최강'이라는 타이틀에 어울리지 않게 됐다. 벤치마크에서 V3를 앞섰다고 밝힌 모델은 큐원 말고도 30일 출시된 미국 앨런 AI연구소의 '튈루 3 405B'가 있다.
임대준 기자 ydj@aitimes.com
