매개변수는 수천만개에 불과하지만, 대형언어모델(LLM)을 능가하는 추론 능력을 갖춘 모델 아키텍처가 등장했다. 사고 사슬(CoT) 대신, 병렬 계산 방식으로 추론 능력을 끌어 올렸다는 것을 특징으로 들었다.
싱가포르의 인공지능(AI) 스타트업 사피언트 인텔리전스는 25일(현지시간) 오픈 소스 초경량 추론 모델 ‘HRM(Hierarchical Reasoning Model)’에 관한 논문을 아카이브에 게재했다.
극소량의 학습 데이터와 적은 연산 자원으로 복잡한 문제를 해결하는 추론 능력을 보여 주는 것이 특징이다.
HRM은 인간의 뇌 구조에서 영감을 얻어, 느리고 추상적인 계획을 담당하는 상위 모듈(H)과 빠르고 세밀한 계산을 담당하는 하위 모듈(L)로 구성된 이중 순환 구조를 채택했다.
이 모듈들이 서로를 보완하며 반복적으로 문제를 풀어나가는 ‘계층적 수렴(hierarchical convergence)’ 방식을 통한다.
따라서, 별도의 사전 훈련이나 사고 사슬(CoT) 기법 없이도 깊이 있는 연쇄 추론을 수행할 수 있다는 설명이다.
매개변수는 고작 2700만개다. 하지만, 복잡한 스도쿠(Sudoku) 게임이나 미로 경로 탐색, 그리고 인공일반지능(AGI) 평가 지표로 쓰이는 'ARC-AGI' 벤치마크 등에서 기존 LLM을 앞서는 성과를 기록했다.
예를 들어, '스도쿠-익스트림(Sudoku-Extreme)'과 '메이즈하드(Maze-Hard)'에서 기존 추론 모델은 정확도 0%를 기록한 반면, HRM은 단 1000개의 학습 예제만으로 거의 완벽한 성과를 냈다.
ARC-AGI에서는 40.3%의 정확도를 기록, 오픈AI의 'o3-미니-하이(34.5%)'와 앤트로픽의 '클로드 3.7 소네트(21.2%)' 등 훨씬 더 큰 모델을 앞질렀다.
이런 결과에 대해 사피언트는 "현재 LLM이 주로 사용하는 CoT 방식은 인간이 정의한 취약한 단계 분해에 의존, 한 단계만 틀려도 전체 추론이 실패할 수 있다"라고 지적했다.
반면, HRM은 언어를 거치지 않고 내부 잠재 공간(latent space)에서 추론을 진행해, 더 빠르고 안정적인 문제 해결이 가능하다는 것이다.
왕구안 사피언트 CEO는 "토큰 단위로 순차적으로 CoT를 생성하는 방식 대신, HRM의 병렬 처리는 작업 완료 시간을 100배 단축할 수 있다"라고 말했다.
또 HRM은 추론 과정이 반복될수록 문제 해결 속도가 향상하는 학습 곡선을 보이는 등 초보자가 숙련자로 발전하는 과정과 비슷하다고 설명했다.
이런 효율성은 산업 현장에서도 강력한 경쟁력을 가진다고 강조했다.
왕 CEO는 “HRM은 순차적이거나 복합적 의사결정을 요구하는 작업, 특히 로봇공학,과 과학 연구, 물류 최적화 등에서 LLM보다 낮은 지연시간과 적은 비용으로 뛰어난 성과를 낼 수 있다”라고 강조했다.
실제로 HRM은 전문 수준의 스도쿠를 학습하는 데 단 2 GPU 시간만이 소요됐고, ARC-AGI 학습도 50~200 GPU 시간에 불과해 기존 대형 모델 대비 월등한 비용 효율을 보였다고 소개했다.
HRM의 코드는 깃허브에서 다운로드할 수 있다.
박찬 기자 cpark@aitimes.com
