오픈AI와 구글의 인공지능(AI) 모델이 국제수학올림피아드(IMO)에서 금메달 성과를 거둘 수 있었던 핵심 요인이 ‘자기 검증’이라는 분석이 나왔다. 이는 오픈AI가 개발한 '범용 검증기(universal verifier)'의 원리와 같다.
디 인포메이션은 10일(현지시간) 린 양 UCLA 전기·컴퓨터공학과 교수가 직관적이면서 단순한 방법으로 IMO 금메달 수준 성과를 재현하는 데 성공했다고 보도했다.
그동안 오픈AI와 구글은 금메달 성과의 비결을 “범용적으로 활용할 수 있는 기법”이라고만 설명했을 뿐, 구체적인 방식은 공개하지 않았다. 그러나 양 교수는 그 비밀이 “AI 스스로 답안을 검증하게 하는 것에 있다”라고 지적했다.
양 교수는 'GPT-5', 구글의 '제미나이 2.5 프로', xAI의 '그록-4' 등 최신 모델에게 IMO 문제를 풀도록 한 뒤, 채점관 역할을 부여해 스스로 논리적 오류를 찾아내게 했다. 이후 발견된 오류를 다시 모델에 전달해 답을 수정하도록 했고, 이 과정을 오류가 사라질 때까지 반복하는 방식으로 진행했다.
그 결과 모두 6문제 중 5문제를 해결하며 금메달 수준의 성과를 달성했다. 이는 오픈AI와 구글이 앞서 보고한 IMO 성과와 동일한 수준이다.
하지만, 한계도 드러났다. 모델에게 “모든 가능한 해법을 시도하라”라고 지시하면 계산 자원이 과도하게 소모돼 답을 내지 못하는 문제가 발생했다. 또 지시를 제대로 따르지 못하는 모델이나 규모가 작은 오픈 소스 모델은 같은 접근법으로는 금메달 성과에 도달하지 못했다.
양 교수는 이 과정을 “검증-개선 파이프라인(verification-and-refinement pipeline)”이라고 명명했다. “이 기법이 오픈AI가 언급한 ‘범용 검증기’와 동일한지는 알 수 없지만, 최신 모델의 잠재력을 발휘하는 데 반드시 복잡한 기술이 필요한 것은 아니라는 점을 보여준다”라고 설명했다.
앞서 오픈AI 관계자들은 IMO 금메달 모델에 사용한 기술을 'GPT-5'에 일부 접목, 성능을 향상했다고 밝혔다. 이를 범용 검증기로 부르며, AI가 AI의 출력을 분석해 사람이 작성한 것처럼 합리적이고 정확한지 확인하는 판별자 역할을 한다고 소개했다.
물론, 오픈AIA는 이를 개발하기 위해 몇개월이 걸렸으며, 아직도 기술이 완성된 상태는 아니다. 따라서 이번 실험과 같은 원리를 적용하는 것 외에도 정교한 엔지니어링이 필요하다는 지적이다.
하지만 양 교수는 “이번 연구는 모델에 새로운 능력을 부여한 것이 아니라 이미 내재한 역량을 끌어낸 것일 뿐”이라며 “이는 누가, 어떤 목적으로 활용하느냐에 따라 긍정적일 수도, 위험할 수도 있다”라고 덧붙였다.
박찬 기자 cpark@aitimes.com
