GPT-4.5, 인간 선호도 투표에서 '그록-3' 누르고 정상 등극

이 기사를 공유합니다

오픈AI가 지난 27일(현지시간)출시한 'GPT-4.5'가 사용자 선호도 순위에서 1위에 올랐다. 특히 일론 머스크 CEO가 "세상에서 가장 똑똑한 AI"라고 자랑하던 '그록-3'를 끌어 내렸다.

IM아레나는 4일(현지시간) X(트위터)를 통해 GPT-4.5가 리더보드 1위를 차지했다고 발표했다. 3000건 이상의 사용자 투표를 통해 1411점을 획득, 그록-3를 9점 차로 앞섰다.

세부적으로 ▲스타일 컨트롤 ▲하드 프롬프트 ▲코딩 ▲수학 ▲창의적 글쓰기 ▲지시 이행 ▲긴 쿼리 ▲멀티 턴 대화 등 전 분야에 걸쳐 모두 1위를 차지했다.

특히, 챗봇 답변의 길이와 스타일에 들어간 효과를 제외하고 순수하게 글쓰기 능력을 판정하는 '스타일 컨트롤'과 지속적으로 대화를 주고받는 능력인 '멀티 턴 대화'는 모든 모델 중 가장 뛰어난 것으로 나타났다. 이는 모델의 언어적인 능력은 가장 뛰어나다는 것을 말한다.

이번 IM아레나에서는 'o1'이나 '제미나이 2.0', '딥시크-R1' 등 추론 모델을 모두 앞질렀다. 지난달 19일 출시된 앤트로픽의 '클로드 3.7 소네트'는 아직 12위에 불과하다.

GPT-4.5는 이제까지 등장한 모델 중 가장 많은 인프라와 데이터로 훈련된 모델 중 하나로 꼽힌다.

수학이나 과학 같은 전문 영역의 능력은 기존 모델을 크게 앞지르지 못했고 비용 대비 효율성이 크게 떨어지지만, 현존하는 최고 모델 중 하나인 것은 틀림없다.

경쟁자이며 소송 중인 머스크 CEO의 그록-3를 눌렀다는 것도 주목할 만하다. 그는 그록-3를 출시하며 기술적인 세부 사항을 공개하는 대신, 벤치마크 결과만으로 우수성을 강조했기 때문이다.

그중 하나인 IM아레나 리더보드에서는 GPT-4.5가 등장한 지 불과 5일 만에 선두를 내줬다. IM아레나는 두개의 챗봇에 같은 프롬프트를 입력, 사용자가 우수하다고 생각하는 쪽에 투표하는 블라인드 테스트 방식을 채택하고 있다.

또 그록-3는 벤치마크 결과에 비해 인상적인 면이 없다는 평을 받았지만, GPT-4.5는 일부 사용자들로부터 일반 챗봇과는 다른 차원의 답을 내놓는다는 말을 듣고 있다.

임대준 기자 ydj@aitimes.com