(사진=알리바바)
(사진=알리바바)

알리바바가 오픈AI의 ‘o1’과 경쟁하기 위한 새로운 추론 AI 모델을 공개했다. 이 모델은 o1처럼 사용자 질문에 대한 응답 품질을 높이기 위해 추가적인 컴퓨팅 리소스와 시간을 활용하는 ‘테스트-타임 컴퓨트(Test-Time Compute)’ 기술을 적용했다.

알리바바는 27일(현지시간) 허깅페이스를 통해 새로운 추론 AI 모델인 ‘QwQ-32B-프리뷰’를 오픈 소스로 출시했다. 

이 모델은 325억개의 매개변수를 포함하며, 최대 3만2000단어 길이의 컨텍스트 창을 지원한다.

작업을 계획하고 논리적으로 추론하며, 정답에 도달하기 위한 여러 단계를 수행할 수 있다. 특히 질문이 복잡할수록 응답을 내기 전에 수십초 동안 추가적인 ‘생각’을 할 수 있는데, 이는 o1 모델에 적용된 기술과 유사하다.

이는 모델이 작업을 수행하는 과정에서 추가적인 처리 시간을 활용, 응답의 정확성과 신뢰성을 높이는 데 초점을 맞춘다.

알리바바는 QwQ-32B-프리뷰가 벤치마크인 'AIME'와 'MATH'에서 오픈AI의 o1-프리뷰와 o1-미니 모델보다 우수한 성능을 기록했다고 주장했다. AIME는 AI 모델 간 성능을 비교하기 위한 평가 시스템이며, MATH는 수학 문제 풀이 능력을 측정하는 데이터셋이다.

벤치마크 결과 (사진=알리바바)
벤치마크 결과 (사진=알리바바)

다만, QwQ가 논리 퍼즐을 해결하고 고난도의 수학 문제를 풀 수 있는 추론 능력을 갖췄음에도 불구하고, 언어를 예기치 않게 전환하거나 루프에 빠지는 문제를 겪을 수 있다고 지적했다. 또 상식적 추론이 필요한 작업에서는 성능이 다소 부족할 수 있다.

또 시진핑 중국 국가주석이나 천안문 사건, 대만 관련 주제 등 민감한 정치적 이슈에 대한 질문에는 답변을 거부했다. 이는 중국 내 AI 모델이 정부의 인터넷 규제를 준수하고 사회주의 핵심 가치를 반영하도록 검열을 통과해야 하기 때문이다.

현재 QwQ-32B-프리뷰는 허깅페이스에서 다운로드 가능하며, 상업적 용도로도 활용할 수 있다.

한편, 알리바바는 지난주에도 개방형 문제 해결을 목표로 설계된 ‘마르코-o1(Marco-o1)’을 선보이는 등 추론 모델 개발에 집중하고 있다.

마르코-o1은 기존의 수학 문제나 코딩처럼 명확하고 정량화된 결과를 다루는 o1이나 QwQ와는 달리, 열린 결말의 문제를 해결하고 창의적인 사고를 요구하는 구조화되지 않은 과제에 중점을 두고 설계된 것이 특징이다.

특히 알리바바는 이 모델의 이름에서 볼 수 있듯, 오픈AI의 o1에서 영감을 얻었다고 밝혔다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지