GPT-5가 주요 벤치마크 1위를 휩쓸었다. 큰 성능차를 내지는 못했지만, 현존 최고의 모델이라는 것을 확실하게 보여줬다는 평이다.
벤치마크 전문 아티피셜 애널리시스는 8일 오픈AI의 새 모델 GPT-5가 종합 성능에서 세계 최고 자리에 올랐다고 발표했다.
특히 컴퓨팅을 가장 많이 투입한 'GTP-5 하이(High)'는 물론, 그보다 성능을 낮은 'GPT-5 미디엄(meduinm)'까지 1위와 2위에 올랐다. 기존 1위이던 '그록 4'를 3위로 밀어냈다. 하지만, 점수는 69점, 68점으로 그록 4를 1점 로 앞섰다.
가장 저성능인 'GPT-5 로우(low)' 역시 63점으로 8위에 올랐다. 이는 '큐원 3 235B(64점)'보다 낮지만, '클로드 4 소네트 싱킹(59점)'을 크게 앞섰다.
세부 항목에서도 주목할 한 성능을 거뒀다. GPT-5 하이는 'MMLU-프로'와 '인류의 마지막 시험(HLE)' 등 지식 분야 테스트에서 1위에 올랐고, 도구 사용 능력을 따지는 'IF벤치'와 수학 능력 테스트인 'AIME 2025', 장문 컨텍스트 테스트인 'AA-LCR' 등에서도 정상을 차지했다.
다만 코딩 성능을 가리는 '라이브코드벤치'에서는 그록 4에 이어 2위를, '사이코드(Scicode)'에서는 'o4-미니'와 그록 4에 이어 3위를 차지했다.
아티피셜 애널리시스는 GPT-5의 조기 접근 권한을 오픈AI로부터 확보, 벤치마크 결과를 일찌감치 발표할 수 있었다고 설명했다. 그 결과 "GPT-5는 AI 지능의 새로운 최고치라는 것을 입증했다"라고 밝혔다.
속도와 가격면에서도 톱 티어급이라고 소개했다. 초당 토큰 출력 속도는 '제미나이 2.5 플래시'와 며칠전 공개한 오픈 모델 'gpt-oss-120B'에 이어 3위를 차지했다. 이는 뛰어난 지능에도 불구하고, 가벼운 모델만큼 빠르게 답을 출력한다는 내용이다. '딥시크-R1'보다는 무려 7.8배나 빠르다.
가격면에서도 100만 토큰당 1.9달러로, 가장 저렴한 모델 5위에 올랐다. 이 분야 1위는 gpt-oss-120B로, 0.3달러에 불과하다. 딥시크-R1은 1달로, GPT-5보다 한단계 앞선 4위다.
또 GPT-5는 컴퓨팅 사용량에 따라 성능차가 심한 편이라고 분석했다. 하이는 역대 최고 모델이 맞지만, 미디엄은 oo3에 가깝고, 로우는 딥시크-R1과 o3 사이이며, 미니엄(minimum)은 GPT-4.1과 비슷하다는 것이다. 특히 하이와 미니엄의 토큰 사용량과 비용은 무려 3배의 차이가 난다고 전했다.
이처럼 GPT-5는 역대 최강 성능에 속도와 가격을 동시에 만족했다는 평이다. 모든 벤치마크 분야에서 1위를 차지하지는 못했지만, 1위와의 차이도 거의 없다고 분석했다.
사용자 선호로 모델 순위를 매기는 LM아레나도 이날 GPT-5가 새롭게 1위에 올랐다고 발표했다.
여기에서의 결과는 더 압도적이다. 텍스트는 물론, 웹 발과 비전 기능, 하드 프롬프트, 코딩, 수학, 창의성, 장문 컨텍스트 등 거의 전 분야에서 사용자들에게 가장 많은 표를 얻었다.
종합 순위에서는 1481점을 획득, 2위인 제니마니이 2.5 프로를 21점이나 앞섰다. 이에 대해 LM아레나는 "기록적인 성과를 달성했다"라고 강조했다.
이처럼 GPT-5는 모든 분야에서 다른 모델을 압도적으로 누르지는 못했으나, 적어도 현존 최강 모델이라는 것은 확실하다는 평이다.
다만, AI 발전이 급속도로 이뤄지는 탓에 얼마나 정상을 유지할지는 더 지켜봐야 한다는 분석이다.
임대준 기자 ydj@aitimes.com
