(사진=엔트로픽)
(사진=엔트로픽)

역대 최강 성능이라는 앤트로픽의 새 모델 '클로드 3.5 소네트'가 인간 선호도 평가에서 코딩 분야 1위를 차지했다. 오픈AI의 'GPT-4o'는 이 분야 2위로 물러났지만, 여전히 종합 평가에서는 1위를 지켰다.

벤처비트는 25일(현지시간) LMSYS의 챗봇 아레나에서 소네트가 코딩과 하드 프롬프트 2개 분야에서 1위에 올랐다고 발표한 사실을 소개했다.  

이는 지난 20일 소네트가 출시된 지 단 5일 만이다. 챗봇 아레나는 사용자들이 블라인드 테스트 방식으로 모델 선호를 조사하는 방식으로 순위를 매긴다. 

코딩과 동시에 1위를 차지한 하드 프롬프트 분야는 최근 추가됐다. 복잡하고 구체적이며 문제 해결 지향적인 작업을 테스트하는 것으로, 모델의 정교성을 평가하는 수단이다.

종합 1위는 여전히 오픈AI의 'GPT-4o'가 지켰다. 하지만 시간이 지나면 순위가 뒤집힐 가능성은 충분하다.

(사진=X, lmsys.org)
(사진=X, lmsys.org)

이런 결과는 앤트로픽이 강조한 점이나 출시 직후 전문가들의 평가와 일치한다. 이 회사는 대학원 수준의 추론, 학부 수준의 지식 및 코딩 능력으로 크게 성능이 향상됐다고 발표했다. 벤치마크에서도 이전 버전인 '클로드 3 오퍼스'의 38%에 비해 문제 해결 능력이 64%로 늘어난 것으로 알려졌다.

또 전문가들은 코딩 능력의 향상과 함께 새로운 작업 도구 '아티팩트(Artifact)'의 실용성에 대해서도 호평을 보냈다. 단순히 묻고 답을 주는 것을 넘어, 인간과 AI가 협업할 수 있는 구조라는 내용이다.

이처럼 클로드 3.5 소네트는 전작과 마찬가지로 빠르게 현존 최강 자리를 굳혀가고 있다. 지난달 각각 GPT-4o와 제미나이 1.5를 공개하며 각각 최강 성능을 주장했던 오픈AI와 구글을 또 따돌린 셈이다.

이에 따른 오픈AI와 구글의 대응에도 관심이 모인다. 이제 모델 성능은 B2B 사업 확장과도 맞물려 있기 때문이다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지