사람의 수작업 라벨링 없이도 대형언어모델(LLM)을 스스로 학습하고 진화할 수 있는 프레임워크가 공개됐다. 이 기술은 데이터 수집과 라벨링이라는 고성능 AI 개발의 가장 큰 걸림돌을 극복하고, 자율적으로 진화하는 AI로 나아가는 중요한 전환점이 될 것으로 기대된다.
텐센트와 워싱턴대학교 연구진은 최근 온라인 아카이브를 통해 사람의 라벨링 데이터 없이 대형언어모델(LLM)이 스스로 진화할 수 있는 새로운 학습 프레임워크 ‘R-제로(R-Zero)’를 발표했다.
R-제로는 강화 학습(RL)을 기반으로 모델이 학습에 필요한 데이터를 스스로 생성하도록 설계됐다.
구체적으로 하나의 LLM을 ‘도전자(Challenger)’와 ‘해결자(Solver)’라는 두개의 독립 모델로 분리해 상호작용을 통해 동반 진화를 이끌어낸다. 도전자는 해결자의 한계 근처에 있는 문제를 제시하고, 해결자는 점차 어려워지는 문제를 풀며 성능을 끌어올린다.
이렇게 생성된 데이터는 다양성 검증을 거쳐 다시 학습에 활용되는 순환 구조를 형성한다.
실험 결과, R-제로는 여러 오픈 소스 LLM에서 수학 추론과 일반 추론 능력을 크게 향상시키는 것으로 나타났다.
예를 들어, '큐원3-4B-Base'은 수학 추론 벤치마크에서 +6.49점, 일반 추론 벤치마크에서 +7.54점 향상을 기록했다. 연구진은 “첫 반복부터 성능이 즉각적으로 도약해, 도전자가 생성한 학습 커리큘럼이 기존 정적 데이터셋보다 훨씬 효과적이라는 것을 확인했다”라고 설명했다.
주목할 점은 R-제로가 생성한 수학 문제를 통해 배운 추론 능력이 다른 영역에도 전이(transfer)돼, 범용적인 사고력 강화로 이어졌다는 것이다. 또 R-제로를 거친 모델은 이후 전통적인 라벨 데이터로 미세조정하면 더 높은 성능을 발휘, ‘성능 증폭기’ 역할도 하는 것으로 나타났다.
고품질 데이터가 부족한 특수 도메인에서 막대한 비용과 시간을 들여 데이터를 수집·가공하지 않고도 맞춤형 고성능 모델 개발을 가속화할 수 있기 때문에 이 연구의 의미는 크다는 설명이다.
연구를 공동 진행한 황청쑹 박사과정 연구원은 “R-제로는 데이터 라벨링이라는 근본적 병목을 완전히 우회하는 방법”이라며 “이는 단순히 비용 절감을 넘어 인간이 제공할 수 있는 지식 범위를 넘어서는 AI 개발로 이어질 수 있다”라고 말했다.
연구진은 한계도 인정했다. 반복이 거듭될수록 해결자의 ‘다수결 답안’ 정확도가 감소하는 경향이 나타나는 등 데이터 품질 저하 문제가 확인된 것이다.
황 연구원은 “자가 진화형 AI의 장기적 성능 안정성을 확보하는 것이 앞으로의 핵심 과제”라며 “수학처럼 정답이 명확한 영역을 넘어, 마케팅 문구 생성이나 보고서 요약처럼 주관성이 개입되는 작업으로 확장하려면 ‘검증자(Verifier)’ 같은 제3의 에이전트를 도입하는 방향이 필요하다”라고 밝혔다.
R-제로 알고리즘은 현재 깃허브에 공개돼 있다.
박찬 기자 cpark@aitimes.com
