강화학습(RL)은 대형언어모델(LLM)이 인간처럼 새로운 문제를 창의적으로 사고하고 해결하도록 만드는 것이 아니라, 기본 모델이 이미 학습한 정답을 더 신속하게 찾아내도록 돕는 데 그친다는 연구 결과가 나왔다.
중국 칭화대와 상하이교통대 연구진은 29일(현지시간) 검증 가능한 보상을 갖춘 강화 학습(RLVR)이 LLM의 추론 능력에 미치는 영향에 관한 논문을 온라인 아카이브에 게재했다.
이 연구는 오픈AI의 'o1'이나 '딥시크-R1' 같은 추론 모델을 개선하는 데 사용하는 기술인 RLVR을 다룬다. 이 방식은 수학이나 코딩 문제처럼 정답을 자동으로 검증할 수 있는 질문에 대해, 모델이 정답을 맞히면 보상을 주는 식으로 훈련하는 것이다.
하지만 연구진은 RLVR이 새로운 사고방식을 배우도록 만들지는 못한다고 주장했다. 이미 기본 모델(vanilla model)이 알고 있는 정답을 더 빨리 찾게 도와주는 것뿐이라는 것이다. 즉, 모델이 처음 보는 전혀 새로운 문제를 스스로 해결하긴 어렵다는 설명이다.
연구진은 RLVR로 훈련한 모델과 기본 모델을 비교했다. 이후 수학이나 코딩, 시각 추론 같은 문제를 여러 차례 반복적으로 해결하게 했다.
그 결과, 모델에게 정답을 맞힐 기회를 조금만 줬을 때는 RLVR 모델이 더 잘 맞혔다. 하지만 기회를 수백 번, 수천 번 주면 기본 모델도 비슷하거나 더 좋은 성과를 냈다.
이는 RLVR이 모델이 정답을 찾을 확률을 높이지만 동시에 가능한 정답 후보군의 범위를 좁혀버릴 수 있어, 예상 밖의 방식으로 문제를 푸는 데는 오히려 약할 수 있다는 점을 의미한다.
가장 중요한 사실은 RLVR 모델이 만들어내는 모든 추론 경로가 이미 기본 모델 안에 있다는 점이다.
예를 들어 정답이 명확한 문제의 경우에는, RLVR 훈련이 정답을 더 잘 찾도록 도와주기 때문에 답을 더 빨리 고를 수 있다. 하지만, 그 대가로 다양한 방식으로 생각하는 능력은 줄어든다. 조금 다른 유형의 문제에서는 기본 모델은 정답을 알고 있는데 RLVR 모델은 그 정답 경로를 포함하지 못하는 일이 생길 수 있다.
RLVR이 쓸모없다는 아니라고 강조했다. 많은 AI 연구자들은 이번 결과가 오히려 RLVR이 제 역할을 잘하고 있다는 증거라고 봤다. 실제 사람들은 LLM에게 같은 질문을 수백번 반복해서 묻지 않는다. 한번에 정답이 나오는 것을 기대한다. RLVR은 이런 점에서 실용적이다.
그리고 LLM은 인간처럼 번뜩이는 ‘영감’을 받지는 못하더라도, 다양한 분야의 정보를 융합하는 데 능하다. 이런 능력은 핵융합이나 신약 개발처럼 다양한 지식이 필요한 분야에서 유용하게 쓰일 수 있다. 또 인간 과학자는 한두 분야의 전문가에 그치는 것이 일반적이지만, LLM은 훨씬 더 많은 분야의 지식을 빠르게 조합할 수 있다는 것이 장점이다.
또 하나 주목할 점은, 이번 실험이 알리바바의 '큐원2.5-32B'나 메타의 '라마-3.1-8B' 같은 비교적 작은 모델을 대상으로 했다는 것이다. 예를 들어, 딥시크-R1처럼 671억개의 매개변수를 가진 초대형 모델에서는 동일한 결과가 나올지 확인해 볼 필요가 있다.
마지막으로 이번 연구는 여전히 좋은 ‘기본 모델’을 만드는 것이 중요하다는 것을 강조한다.
최근에는 훈련보다 추론 단계에서 더 많은 계산을 활용하는 ‘테스트-타임 컴퓨팅’ 방식이 인기를 끌고 있지만, 이 논문은 기본 모델을 잘 만드는 것이 여전히 가치 있다는 걸 보여준다.
이유는 간단하다. 큰 모델일수록 더 많은 지식과 다양한 추론 방법을 담고 있기 때문이다.
박찬 기자 cpark@aitimes.com
- 'o1' 개발한 오픈AI 연구원 "추론은 20년 전에 등장했을 수도"
- '테스트-타임 컴퓨트' 이어 '추론-시간 검색' 등장...'제4의 스케일링 법칙' 여부로 논란
- 구글, 테스트-타임 추론 최적화 기술 '마인드 에볼루션' 공개
- 외부 데이터 없이 스스로 배우고 성장하는 '자기주도형' 추론 모델 등장
- 오답 보상에도 AI 성능 향상하는 강화 학습…"정답 없어도 학습 가능”
- 알리바바, 긴 컨텍스트 추론 향상 학습 프레임워크 ‘큐원롱-L1’ 공개
- 연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 ‘웹-셰퍼드’ 소개
- "AI, 모를 땐 모른다고 말하도록 가르쳐야"…환각 줄이는 학습법 등장
- MIT “챗GPT 사용자, 뇌파 측정 결과 학습 능력 저하…인지·기억력 모두 감소”
- 사카나 AI, 추론 모델 증류 성능 높이는 '강화 학습 교사(RLT)' 소개
- 코딩 AI가 글쓰기보다 더 빨리 향상된 이유는 '강화 격차'
- 강화 학습 결과 예측 가능케 하는 LLM 법칙 공개
- 메타, 가상 환경서 AI 에이전트 훈련하는 '드림짐' 프레임워크 공개
