모델에 답을 여럿 생성하게 한 뒤 이 중 가장 좋은 것을 골라내는 방법만으로 비추론 모델의 정확도를 오픈AI의 'o1' 수준까지 끌어올릴 수 있다는 주장이 나왔다. 이에 대해 일부에서는 '4번째 스케일링 법칙'이라며 기대를 보였지만, 반대 입장도 만만치 않은 것으로 나타났다.
구글과 UC 버클리 연구진은 최근 온라인 아카이브를 통해 '추론-시간 검색(Inference-Time Search)'이라는 새로운 모델 성능 향상법을 소개했다.
내용은 비교적 간단하다. 인공지능(AI) 모델에 쿼리에 대해 가능한 여러 답변을 병렬로 생성하게 한 다음, 그중에서 가장 유용한 답을 모델 스스로 골라내게 한다는 것이다.
연구진은 "여러 응답을 비교하는 것은 오류나 환각이 어디에서 생겼는지를 파악하는 데 유용하며, 다양한 스타일의 응답을 통해 더 나은 맥락의 답변을 만들 수 있다"라고 전했다. 이를 '검색 스케일링'이라고도 불렀다.
이번 연구는 추론이라기보다는 정답 비교, 즉 검색에 관한 것으로 볼 수 있다. 이전에도 여러 모델에 같은 질문을 주고 투표를 통해 정답을 결정하는 방식 등이 소개됐지만, 이번에는 모델 하나가 여러 답을 검토하는 중 스스로 정답률을 높이는 방식이다.
연구진은 2024년 초에 출시된 오래된 '제미나이 1.5'에 200개의 정답 샘플을 생성하도록 요청하고, 이 중 하나로 정답을 추려냈다. 그 결과 수학과 코딩 등에서 정확도가 'o1-미니'를 모두 능가했으며, o1에 접근했다고 밝혔다.
에릭 자오 구글 연구원은 "더 오래 생각하는 테스트 타임 컴퓨트 대신, 우리는 '검색'을 확장하는 데 집중했다"라며 "이런 자체 검증(self-verification) 방식이 성능 향상을 위해 매우 쉽다는 것이 요점"이라고 설명했다.
또 "샘플이 많을수록 정답을 찾아내는 것이 더 어려워질 것으로 예상했지만, 사실은 그 반대"라며 "이는 마법 같은 일"이라고 강조했다.
이에 대해 X(트위터)에서는 이 방식이 AI 모델의 성능을 높이는 새로운 중요 접근법이 될 것이라는 칭찬이 등장했다. 다른 방식에 비해 효율성은 따져야 하겠지만, 합리적인 접근이라는 내용이다.
사실, '제3의 스케일링' 방식으로 자리를 굳힌 추론, 즉 '테스트-타임 컴퓨팅'도 원리는 간단하다. 모델에 더 많은 시간과 컴퓨팅을 공급해 더 오래 생각하면 좋은 답이 나온다는 것이기 때문이다. 이번에는 오래 생각하는 것이 아니라, 많이 생각한 뒤 그중 좋은 것을 골라낸다는 원리다.
그러나 반박도 만만치 않다. 이번 시도가 새로운 것이 아니며, 활용이 한정적이라는 것이다.
매튜 구즈다이얼 앨버타대학교 교수는 테크크런치와의 인터뷰에서 "정답을 정의할 수 없는 일반적인 언어의 상호 작용 등에서는 이를 적용한다는 것이 어렵다"라고 지적했다.
또 마이크 쿡 킹스칼리지 런던 연구원도 "이 방식은 모델의 '추론 프로세스를 향상하는 것이 아니라, 실수를 더 쉽게 찾아내는 방법"이라며 "모델이 5%의 경우에서 실수한다면, 10번 답을 내는 것보다 200번 답을 내면 오답을 더 쉽게 찾아낼 수 있다는 차이가 생길 뿐"이라고 밝혔다.
이 방식이 유효한지 여부는 앞으로 얼마나 많은 개발자들이 채택할지에 달렸다.
한편, AI 모델 성능을 높인다는 스케일링 개념은 기존 '사전 훈련'을 넘어, 지난해부터는 강화학습(RL) 등을 활용한 '사후 훈련'에 이어 테스트-타임 컴퓨트로 확장되고 있다.
임대준 기자 ydj@aitimes.com
- “테스트-타임 스케일링 잘 쓰면 sLM도 매개변수 100배 이상 LLM 성능 능가”
- 오픈AI “테스트-타임 컴퓨트 늘어나면 적대적 공격 대처에도 효과적”
- 구글, 테스트-타임 추론 최적화 기술 '마인드 에볼루션' 공개
- 허깅페이스, sLM용 추론 기술 ‘테스트-타임 스케일링’ 오픈 소스 공개
- 유휴 상태에서 미리 답변 준비하는 '수면 시간 컴퓨팅' 등장..."예측 가능한 질문에 효과적"
- 라벨링 안 된 데이터 활용해 자체 진화하는 LLM 기술 '테스트-타임 강화학습' 등장
- “강화학습은 효율에 집중한 LLM 훈련법...창의력을 키우지는 못해”
