오픈AI가 지난 27일(현지시간)출시한 'GPT-4.5'가 사용자 선호도 순위에서 1위에 올랐다. 특히 일론 머스크 CEO가 "세상에서 가장 똑똑한 AI"라고 자랑하던 '그록-3'를 끌어 내렸다.
IM아레나는 4일(현지시간) X(트위터)를 통해 GPT-4.5가 리더보드 1위를 차지했다고 발표했다. 3000건 이상의 사용자 투표를 통해 1411점을 획득, 그록-3를 9점 차로 앞섰다.
세부적으로 ▲스타일 컨트롤 ▲하드 프롬프트 ▲코딩 ▲수학 ▲창의적 글쓰기 ▲지시 이행 ▲긴 쿼리 ▲멀티 턴 대화 등 전 분야에 걸쳐 모두 1위를 차지했다.
특히, 챗봇 답변의 길이와 스타일에 들어간 효과를 제외하고 순수하게 글쓰기 능력을 판정하는 '스타일 컨트롤'과 지속적으로 대화를 주고받는 능력인 '멀티 턴 대화'는 모든 모델 중 가장 뛰어난 것으로 나타났다. 이는 모델의 언어적인 능력은 가장 뛰어나다는 것을 말한다.
이번 IM아레나에서는 'o1'이나 '제미나이 2.0', '딥시크-R1' 등 추론 모델을 모두 앞질렀다. 지난달 19일 출시된 앤트로픽의 '클로드 3.7 소네트'는 아직 12위에 불과하다.
GPT-4.5는 이제까지 등장한 모델 중 가장 많은 인프라와 데이터로 훈련된 모델 중 하나로 꼽힌다.
수학이나 과학 같은 전문 영역의 능력은 기존 모델을 크게 앞지르지 못했고 비용 대비 효율성이 크게 떨어지지만, 현존하는 최고 모델 중 하나인 것은 틀림없다.
경쟁자이며 소송 중인 머스크 CEO의 그록-3를 눌렀다는 것도 주목할 만하다. 그는 그록-3를 출시하며 기술적인 세부 사항을 공개하는 대신, 벤치마크 결과만으로 우수성을 강조했기 때문이다.
그중 하나인 IM아레나 리더보드에서는 GPT-4.5가 등장한 지 불과 5일 만에 선두를 내줬다. IM아레나는 두개의 챗봇에 같은 프롬프트를 입력, 사용자가 우수하다고 생각하는 쪽에 투표하는 블라인드 테스트 방식을 채택하고 있다.
또 그록-3는 벤치마크 결과에 비해 인상적인 면이 없다는 평을 받았지만, GPT-4.5는 일부 사용자들로부터 일반 챗봇과는 다른 차원의 답을 내놓는다는 말을 듣고 있다.
임대준 기자 ydj@aitimes.com
- 오픈AI, '그록-3' 벤치마크 조작 문제로 xAI와 논쟁
- xAI, '세계에서 가장 똑똑한' 그록-3 출시...추론 모델·'딥서치'도 공개
- [2월5주] 이상하고 흥미로운 'GPT-4.5'..."일반 사용자에 딱인데, 너무 비싸서"
- 오픈AI "GPT-4.5는 가장 설득력이 뛰어난 모델"
- 오픈AI, 20달러 요금제 사용자에 'GPT-4.5' 개방..."수요 확인"
- 알트먼 "글쓰기 최적화된 새 모델 훈련...출시는 미정"
- 두차례나 'GPT-4.5' 사전 훈련한 오픈AI...“GPT-4쯤은 5명으로 개발 가능”
- MS, 호스팅 중인 모델 '리더보드' 신설..."품질 1위는 o3"
