(사진=누스 리서치)
(사진=누스 리서치)

누스 리서치가 일반 대형언어모델(LLM)과 추론 전문 모델을 통합한 신제품을 공개했다. 이는 오픈AI와 앤트로픽이 예고한 추론-비추론 모델 결합과 같은 내용으로, 이를 오픈 소스로 출시하는 것은 처음이다.

누스 리서치는 14일(현지시간) X(트위터)를 통해 새로운 비추론-추론 통합 모델인 ‘딥헤르메스-3(DeepHermes-3)’를 오픈 소스로 출시했다고 발표했다.

이 모델은 메타 '라마 3.1'의 미세조정 버전인 80억 매개변수의 '헤르메스 3' 변형이다.

다양한 훈련 및 추론 기반 도메인에 걸쳐 약 3억9000만개의 토큰으로 구성된 데이터셋을 기반으로 사전 훈련했으며, 여기에 15만개의 사고 사슬(CoT) 출력과 100만개의 일반 출력을 포함한 합성데이터로 추가 학습했다. 이 데이터 혼합은 딥헤르메스-3가 직관적인 응답과 깊고 구조적인 추론 사이를 전환할 수 있는 독특한 능력을 지원하며, 다른 LLM과 차별화되는 핵심 기능이다.

사용자가 제어하고 전환할 수 있는 추론 모드를 제공하는 것이 특징이다. 이를 작동하려면 사용자가 수동으로 시스템 프롬프트를 작성해야 한다.

즉, 프롬프트 앞에 "당신은 깊은 사고를 하는 AI다. 문제를 깊이 고려하고, 체계적인 추론 과정을 통해 스스로 숙고해 답변을 제공하기 전에 올바른 해결책에 도달할 수 있다. 사고와 내부 독백을 태그 안에 넣고, 문제에 대한 해결책이나 응답을 제공하라"라는 문장을 직접 입력해야 한다.

이를 통해 추론 모드가 활성화되면 모델은 추가 시간을 통해 CoT를 사용해 답변을 생성한다. 물론, 기본 응답 모드에서는 다른 AI 챗봇처럼 빠르고 직관적인 응답을 제공한다.

추론 모드와 기본 모드간 벤치마크 결과 (사진=누스 리서치)
추론 모드와 기본 모드간 벤치마크 결과 (사진=누스 리서치)

딥헤르메스-3 추론 모드는 MATH(수학) 벤치마크에서 67%의 정확도로, 기본 모드 10%에 비해 거의 7배의 성과를 보였다. 다만, 딥시크의 R1-증류 모델의 89.1%에는 못 미쳤다.

이에 대해 누스 리서치는 "딥시크는 순수 수학 작업에서 우수한 성능을 보이지만, 딥헤르메스-3는 더 폭넓은 대화 능력과 추론 능력을 갖춘 범용 모델"이라고 강조했다.

또 추론 모드는 첫번째 응답에서는 정상적으로 작동하지만, 대화가 길어지며 일반 응답 모드로 돌아갈 수 있는 것이 단점으로 꼽혔다.

현재 허깅페이스에서 전체 모델 코드와 저전력 하드웨어에 최적화된 GGUF 양자화 버전을 다운로드할 수 있다. 특히, GGUF는 일반 소비자용 PC와 서버에서 추론을 실행하도록 설계됐다.

한편, 누스 리서치는 지난해 인기 오픈 소스 모델 헤르메스 3에 이어 AI 챗봇 '누스 챗'을 출시한 바 있는 유망 스타트업이다. 특히 누스 챗은 제한 없는 답변이 가능하도록 개발자가 가중치를 결정할 수 있게 한 것으로 화제가 됐다.

또 이번 추론-비추론 모델 출시와 같이 대형 AI 개발사들의 트렌드에 맞춰 추론이나 웹 검색, 파일 분석 등의 고급 기능을 순차적으로 추가 중이다. 이를 통해 오픈 소스 모델의 활용도를 높이겠다는 것이 목표다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지