오픈AI, '그록-3' 벤치마크 조작 문제로 xAI와 논쟁

이 기사를 공유합니다

인공지능(AI) 벤치마크와 이를 발표하는 방식에 대한 논쟁이 뜨겁다. 이번 논란은 오픈AI와 일론 머스크의 AI 기업 xAI 간의 대립으로 더욱 주목받고 있다.

보리스 파워 오픈AI 응용 연구 책임자는 20일(현지시간) X(트위터)를 통해 "그록 팀이 벤치마크(Eval)에서 속이고 사기를 치려는 것을 보는 것이 실망스럽다"라고 밝혔다.

그는 "o3-미니는 그록-3에 비해 모든 벤치마크에서 더 뛰어나다. 그록-3는 정말 괜찮은 모델이지만, 과장할 필요까지는 없다"라고 설명했다. 이는 지난주 xAI가 그록-3를 출시하며 내놓은 벤치마크 결과가 조작됐다는 내용이다.

이에 대해 xAI의 공동 창립자인 이고르 바부쉬킨 엔지니어링 리더는 "(오픈AI의 주장은) 완전히 틀렸다"라며 "우리는 당신들이 사용한 방식을 그대로 따라 한 것"이라고 반박했다.

문제가 된 부분은 xAI가 지난주 공개한 그록-3의 'AIME 2025(수학)' 테스트 결과다.

AIME 2025는 수학 경시대회에 출제된 난이도 높은 문제들로 구성된 벤치마크다. 일부 전문가들은 AIME의 타당성에 대해 의문을 제기하고 있으나, AI 모델의 수학적 능력을 평가하는 주요 기준 중 하나로 널리 사용되고 있다.

xAI가 공개한 그래프에서는 그록-3의 두가지 변형 모델인 ‘그록-3 추론 베타’ 및 ‘그록-3 미니 추론’은 AIME 2025에서 오픈AI의 'o3-미니-하이'보다 좋은 성적을 보였다.

그러나 오픈AI 직원들은 xAI의 그래프가 o3-미니-하이의 점수를 'cons@64' 기준으로 계산하지 않았다고 지적했다.

‘cons@64’는 모델이 각 문제를 해결할 때 64번의 시도를 통해 가장 자주 생성된 답변을 최종 답으로 채택하는 방식이다. 이 방식은 모델의 벤치마크 점수를 크게 끌어 올리는 경향이 있다.

그록-3 추론 베타와 그록-3 미니 추론의 AIME 2025 점수를 ‘@1’ 기준으로 보면, o3-미니-하이보다 낮은 것으로 나타났다. ‘@1’은 모델이 처음으로 제출한 답변의 점수다.

또 그록-3 추론 베타는 o1보다 약간 뒤처진다. 그런데도 xAI는 그록-3를 "세계에서 가장 똑똑한 AI"라고 홍보한다는 것이 오픈AI의 주장이다.

바부쉬킨 책임자가 지적한 점은 오픈AI도 과거에 이렇게 @1rhk @64를 혼용해서 사용했다는 것이다. 그러나, 오픈AI는 자사 모델 간의 비교에 이를 사용했으며, 타사 모델을 깎아내리는 데 사용하지는 않았다는 차이가 있다.

이번 논쟁은 벤치마크 무용론이 다시 등장한 가운데 발생한 것으로 주목받고 있다.

또 xAI는 지난주 그록-3 기술 보고서를 추가 공개했는데, 여기에는 출시 당시 자랑했던 벤치마크 결과 외에 새로운 내용은 여전히 등장하지 않아 논란을 키우고 있다.

박찬 기자 cpark@aitimes.com