롱CoT(LongCoT)와 딜리싱크(Delethink)의 비교도. 딜리싱크는 AI가 수행하는 RL 환경을 청크(chunk) 단위로 나눠진 마르코프적 과정으로 새롭게 정의한다. (사진=arXiv)
롱CoT(LongCoT)와 딜리싱크(Delethink)의 비교도. 딜리싱크는 AI가 수행하는 RL 환경을 청크(chunk) 단위로 나눠진 마르코프적 과정으로 새롭게 정의한다. (사진=arXiv)

대형언어모델(LLM)의 ‘사고 방식’을 근본적으로 재설계하려는 시도가 등장했다. 캐나다 AI 연구소 밀라(Mila) 연구진이 제안한 새로운 학습 기법은, 모델이 스스로 생각을 구획화하고 이어가는 방식을 통해 연산 효율을 비약적으로 높이는 데 초점을 맞췄다.

밀라 연구소는 21일(현지시간) LLM의 복잡한 추론 효율을 획기적으로 개선할 수 있는 새로운 학습 방식 ‘마르코프 싱커(Markovian Thinker)’를 온라인 아카이브를 통해 공개했다.

이 방법은 AI가 긴 추론 과정을 수행할 때 발생하는 연산 비용 폭증 문제를 근본적으로 해결해, 기존 방식에 비해 훈련 비용을 3분의 1 이하로 줄일 수 있다는 점에서 주목받고 있다.

LLM이 복잡한 문제를 풀기 위해서는 단계별로 사고 과정을 나열하는 사고 사슬(CoT)이 필수적이다. 최근에는 강화 학습(RL)을 이용해 AI가 더 긴 사고를 하도록 훈련하는 롱CoT(LongCoT) 방식이 도입됐으나, 이 방식은 추론이 길어질수록 모델의 입력 상태(프롬프트 + 사고 토큰)가 기하급수적으로 커지며, 계산량이 토큰 길이에 따라 제곱으로 증가(Quadratic scaling)하는 문제가 있었다.

밀라 연구진은 '사고 환경(thinking environment)' 자체를 재설계함으로써 이런 한계를 해결했다. 연구진은 “사고의 길이와 컨텍스트의 크기를 분리하는 것”이 핵심이라고 설명했다.

연구진이 제안한 ‘딜리싱크(Delethink)’ 환경은 모델이 사고를 고정 크기(8000토큰)의 블록 단위로 수행하도록 설계됐다. 각 블록 안에서는 일반적인 추론을 수행하며, 블록이 끝나면 환경이 초기화되며 이전 단계의 핵심 내용을 요약한 ‘마르코프 상태(Markovian state)’만 다음 블록으로 전달된다.

이 과정에서 모델은 스스로 다음 사고를 이어가기 위해 무엇을 기억해야 하는지 학습하게 된다. 연구진은 “모델이 훈련을 통해 중요한 상태 정보를 자동으로 요약하고 전달하도록 학습한다”라며 “이 방식은 입력 데이터나 프롬프트를 변경하지 않고 순수하게 추론 단계에서 작동한다”라고 설명했다.

벤치마크 결과 (사진=아카이브)
벤치마크 결과 (사진=아카이브)

연구진은 딥시크의 'R1-Distill-1.5B'을 딜리싱크 환경에서 학습해 수학 경진대회 수준의 문제를 대상으로 벤치마크를 실시했다. 그 결과, 모델은 8000 토큰 단위로 사고하면서도 최대 2만4000 토큰까지 추론을 확장할 수 있었으며, 동일한 학습 예산을 사용한 롱CoT 모델과 비교해 동등하거나 그 이상의 정확도를 기록했다.

특히 학습 한계를 넘어선 테스트에서도 지속적인 성능 향상을 보였다. 롱CoT 모델은 2만4000 토큰 이후 성능이 정체됐지만, 딜리싱크 모델은 14만 토큰까지 사고를 확장하며 정확도를 높였다.

연구진은 “평균 사고 길이 9만6000 토큰 수준의 모델을 훈련할 경우, 롱CoT 방식은 'H100' GPU 27개월분의 연산이 필요하지만, 딜리싱크는 7개월분만으로 동일한 학습을 수행할 수 있다”라고 밝혔다.

또, 별도의 훈련 없이도 일부 대형 모델(GPT-OSS 120B)이 이미 부분적으로 마르코프적 사고를 수행할 수 있음을 발견했다. 이는 딜리싱크와 같은 구조적 접근이 기존 모델에도 즉시 적용 가능다는 것을 의미한다.

연구진은 마르코프 싱커의 모델과 코드를 허깅페이스깃허브에 공개했다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지