추론 언어 모델은 더 긴 사고 사슬(CoT)를 생성하여 성능을 향상시킬 수 있지만, 추론 길이에 대한 제어가 부족하다. 이로 인해 일부 출력은 너무 길어 계산을 낭비하게 되고, 다른 출력은 너무 짧아 성능이 저조하게 된다.
카네기 멜론대학교 연구진이 이 문제를 해결하기 위해 추론 모델의 정확도와 사용자 지정 길이 제약을 지키며 성능을 향상하는 ‘길이 제어 정책 최적화(LCPO)’에 관한 논문을 지난 6일(현지시간) 온라인 아카이브에 게재했다.
전통적인 추론 모델은 출력 길이를 제어하기 어려워 계산 자원을 효율적으로 관리하기 힘들다.
대신, LCPO는 프롬프트에서 설정된 목표 길이를 기준으로 모델을 조정하며, 강화 학습(RL) 방식으로 훈련된다.
L1-이그젝트(L1-Exact) 모델은 목표 길이를 정확히 맞추고, L1-맥스(L1-Max) 모델은 지정된 최대 길이를 넘지 않으면서 정확도를 우선한다. 이 방식은 성능을 최적화하면서 계산 비용을 효율적으로 관리한다는 설명이다.
LCPO 방법(L1)은 다양한 벤치마크에서 길이 제어 텍스트 생성에서 뛰어난 성능을 보였다. L1-이그젝트와 L1-맥스는 정확한 토큰 규칙을 지키면서 기존 모델들을 꾸준히 능가했다.
최신 S1과 비교했을 때, L1은 추론을 잘 조정해 20~25% 더 나은 성능을 보이며 상대적으로 100% 이상 향상했다. S1은 모델이 생성이 너무 짧거나 길면 특별한 토큰을 생성하도록 강제해 길이 제어를 시도한다.
L1은 다른 분야의 작업에도 잘 적용되며, 성능 확장이 뛰어나다고 전했다. 대표적으로 수학적 추론 작업에서도 길이를 잘 지키며 높은 정확도를 유지한다.
또 길이가 긴 경우 더 많은 토큰을 사용해 자기 수정과 결론을 잘 처리하며, 중간 추론과 최종 결과 간의 균형을 효율적으로 맞춘다고 강조했다.
연구진은 "추론 모델은 더 오래 생각하기로 더 많은 컴퓨팅을 사용해 성능을 개선하는 놀라운 능력을 보여줬지만, CoT 길이는 제어할 수 없기 때문에 효율성이 떨어졌다"라며 "LCPO는 추론 길이를 정확하게 제어해 테스트 시간 컴퓨팅과 정확도를 세밀하게 배분할 수 있다"라고 강조했다.
현재 L1 모델과 코드는 허깅페이스와 깃허브에서 다운로드할 수 있다.
박찬 기자 cpark@aitimes.com
- “테스트-타임 스케일링 잘 쓰면 sLM도 매개변수 100배 이상 LLM 성능 능가”
- 딥시크, 긴 컨텍스트 추론 효율 높이는 메커니즘 공개...SCMP "개발 우선순위 드러나"
- “추론 모델 훈련에 최소한의 고품질 데이터면 충분”
- RAG 필요 없이 LLM이 '자율 검색'하는 추론 기술 등장
- 라벨링 안 된 데이터 활용해 자체 진화하는 LLM 기술 '테스트-타임 강화학습' 등장
- 메타 "추론 시간 짧을수록 AI 정확도 34% 향상...과하게 생각하지 말 것"
- 애플의 '추론 모델 한계' 논문 논란..."AI 뒤처진 애플의 꼼수"
- 앤트로픽 "LLM 추론 시간 늘리면 거꾸로 멍청해지는 현상 발견"
