(사진=ikangai)
(사진=ikangai)

강화학습(RL)은 대형언어모델(LLM)이 인간처럼 새로운 문제를 창의적으로 사고하고 해결하도록 만드는 것이 아니라, 기본 모델이 이미 학습한 정답을 더 신속하게 찾아내도록 돕는 데 그친다는 연구 결과가 나왔다.

중국 칭화대와 상하이교통대 연구진은 29일(현지시간)  검증 가능한 보상을 갖춘 강화 학습(RLVR)이 LLM의 추론 능력에 미치는 영향에 관한 논문을 온라인 아카이브에 게재했다.

이 연구는 오픈AI의 'o1'이나 '딥시크-R1' 같은 추론 모델을 개선하는 데 사용하는 기술인 RLVR을 다룬다. 이 방식은 수학이나 코딩 문제처럼 정답을 자동으로 검증할 수 있는 질문에 대해, 모델이 정답을 맞히면 보상을 주는 식으로 훈련하는 것이다.

하지만 연구진은 RLVR이 새로운 사고방식을 배우도록 만들지는 못한다고 주장했다. 이미 기본 모델(vanilla model)이 알고 있는 정답을 더 빨리 찾게 도와주는 것뿐이라는 것이다. 즉, 모델이 처음 보는 전혀 새로운 문제를 스스로 해결하긴 어렵다는 설명이다.

연구진은 RLVR로 훈련한 모델과 기본 모델을 비교했다. 이후 수학이나 코딩, 시각 추론 같은 문제를 여러 차례 반복적으로 해결하게 했다.

그 결과, 모델에게 정답을 맞힐 기회를 조금만 줬을 때는 RLVR 모델이 더 잘 맞혔다. 하지만 기회를 수백 번, 수천 번 주면 기본 모델도 비슷하거나 더 좋은 성과를 냈다.

이는 RLVR이 모델이 정답을 찾을 확률을 높이지만 동시에 가능한 정답 후보군의 범위를 좁혀버릴 수 있어, 예상 밖의 방식으로 문제를 푸는 데는 오히려 약할 수 있다는 점을 의미한다.

탐색 트리는 하나의 문제를 가지고 기본 모델과 RLVR 모델이 여러 번 답을 만들어 보는 과정을 통해 만들어진다. 회색 경로는 모델이 잘 선택하지 않는 길이고, 검은색 경로는 모델이 자주 선택하는 길이다. 초록색 경로는 정답에 해당하며, 모델이 이 경로를 선택하면 보상을 받는다. 예를 들어 문제 A처럼 정답이 명확한 경우에는, RLVR 훈련이 정답을 더 잘 찾도록 도와주기 때문에 답을 더 빨리 고를 수 있다. 하지만 그 대가로, 다양한 방식으로 생각하는 능력은 줄어든다. 반면 문제 B처럼 조금 다른 유형의 문제에서는, 기본 모델은 정답을 알고 있는데 RLVR 모델은 그 정답 경로를 포함하지 못하는 일이 생긴다. (사진=arXiv)
탐색 트리는 하나의 문제를 가지고 기본 모델과 RLVR 모델이 여러 번 답을 만들어 보는 과정을 통해 만들어진다. 회색 경로는 모델이 잘 선택하지 않는 길이고, 검은색 경로는 모델이 자주 선택하는 길이다. 초록색 경로는 정답에 해당하며, 모델이 이 경로를 선택하면 보상을 받는다. 예를 들어 문제 A처럼 정답이 명확한 경우에는, RLVR 훈련이 정답을 더 잘 찾도록 도와주기 때문에 답을 더 빨리 고를 수 있다. 하지만 그 대가로, 다양한 방식으로 생각하는 능력은 줄어든다. 반면 문제 B처럼 조금 다른 유형의 문제에서는, 기본 모델은 정답을 알고 있는데 RLVR 모델은 그 정답 경로를 포함하지 못하는 일이 생긴다. (사진=arXiv)

가장 중요한 사실은 RLVR 모델이 만들어내는 모든 추론 경로가 이미 기본 모델 안에 있다는 점이다.

예를 들어 정답이 명확한 문제의 경우에는, RLVR 훈련이 정답을 더 잘 찾도록 도와주기 때문에 답을 더 빨리 고를 수 있다. 하지만, 그 대가로 다양한 방식으로 생각하는 능력은 줄어든다. 조금 다른 유형의 문제에서는 기본 모델은 정답을 알고 있는데 RLVR 모델은 그 정답 경로를 포함하지 못하는 일이 생길 수 있다.

RLVR이 쓸모없다는 아니라고 강조했다. 많은 AI 연구자들은 이번 결과가 오히려 RLVR이 제 역할을 잘하고 있다는 증거라고 봤다. 실제 사람들은 LLM에게 같은 질문을 수백번 반복해서 묻지 않는다. 한번에 정답이 나오는 것을 기대한다. RLVR은 이런 점에서 실용적이다.

그리고 LLM은 인간처럼 번뜩이는 ‘영감’을 받지는 못하더라도, 다양한 분야의 정보를 융합하는 데 능하다. 이런 능력은 핵융합이나 신약 개발처럼 다양한 지식이 필요한 분야에서 유용하게 쓰일 수 있다. 또 인간 과학자는 한두 분야의 전문가에 그치는 것이 일반적이지만, LLM은 훨씬 더 많은 분야의 지식을 빠르게 조합할 수 있다는 것이 장점이다.

또 하나 주목할 점은, 이번 실험이 알리바바의 '큐원2.5-32B'나 메타의 '라마-3.1-8B' 같은 비교적 작은 모델을 대상으로 했다는 것이다. 예를 들어, 딥시크-R1처럼 671억개의 매개변수를 가진 초대형 모델에서는 동일한 결과가 나올지 확인해 볼 필요가 있다.

마지막으로 이번 연구는 여전히 좋은 ‘기본 모델’을 만드는 것이 중요하다는 것을 강조한다.

최근에는 훈련보다 추론 단계에서 더 많은 계산을 활용하는 ‘테스트-타임 컴퓨팅’ 방식이 인기를 끌고 있지만, 이 논문은 기본 모델을 잘 만드는 것이 여전히 가치 있다는 걸 보여준다.

이유는 간단하다. 큰 모델일수록 더 많은 지식과 다양한 추론 방법을 담고 있기 때문이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지