GPT-4, '챗봇 아레나'서 첫 2위 추락

(사진=챗봇 아레나)
(사진=챗봇 아레나)

앤트로픽의 대형언어모델(LLM) ‘클로드 3’가 인간 선호도를 측정하는 블라인드 평가에서 오픈AI의 'GPT-4'를 밀어내고 1위를 차지했다. 이 순위에서 GPT-4가 2위로 밀려 난 것은 처음이다. 

톰스하드웨어는 27일(현지시간) ‘클로드 3 오퍼스’가 챗봇 아레나(Chatbot Arena) 리더보드에서 1위를 차지했다고 보도했다. 

지난해 5월 처음 공개된 챗봇 아레나는 LLM 성능을 측정하기 위한 전통적인 벤치마크와는 달리, 인간이 직접 성능을 파악하고 순위를 매기는 신개념의 LLM 리더보드다.

캘리포니아 대학교 버클리, UC 샌디에이고, 카네기 멜론 대학교의 학생과 교수진 간의 협력으로 운영되는 대형모델시스템조직(LMSYS ORG)에 의해 운영된다.

방식은 간단하다. 챗봇 아레나에 접속하면 이름을 밝히지 않은 모델 A, B가 있는데, 프롬프트로 질문을 던지면 두 모델이 동시에 답을 내놓는다. 그 결과를 비교해 우수하다고 생각하는 쪽에 투표하면 된다. 즉 '블라인드 테스트' 방식의 크라우드 소싱 투표다.

챗봇 아레나에 따르면 지난해부터 이런 식으로 진행한 투표는 40만건에 달하며, 현재 1위를 기록 중인 모델은 클로드 3 오퍼스다.

2, 3위는 'GPT-4 터보'의 각 버전이 차지했다. 4위는 ‘클로드 3 소네트’, 5위는 구글의 ‘제미나이 프로’, 6위는 ‘GPT-4’, 7위는 ‘클로드 3 하이쿠’ 순이었다. 

이처럼 클로드 3의 세가지 모델이 모두 10위 안에 들었다. 특히 가장 작은 모델인 ‘클로드-3 하이쿠’가 사용자 선호에서 GPT-4의 바로 뒤에 위치한다는 점이 눈에 띈다. 앤트로픽이 매개변수를 밝히지는 않았지만, 훨씬 작은 모델이 1조개 이상의 매개변수 모델과 경쟁할 만한 수준이라는 결과다.

물론 GPT-4 제품군 자체는 출시된 지 1년이 넘었다. 오픈AI도 올여름 ‘GPT-4 터보’의 후속 모델로 ‘GPT-5’를 출시할 것이라는 보도가 등장했다.

한편 챗봇 아레나에는 최근 프랑스 AI 스타트업인 미스트랄과 알리바바와 같은 미국 외 기업의 모델이 상위권 자리를 차지하기 시작했으며, 오픈 소스 모델도 점점 더 늘어나고 있다. 미스트랄의 ‘미스트랄 라지’는 현재 8위, 알리바바의 ‘쿠안(Qwen)’은 9위를 차지했다.

또 상위 20위권 모델 중 오픈 소스 모델은 3개에 불과하다. 따라서 역시 올여름쯤 출시 예정인 메타의 ‘라마 3’에도 기대가 모이고 있다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • ’GPT-4.5’ 출시 임박했나…MS 코파일럿에 ‘GPT-4 터보’ 무료 제공
  • 앤트로픽, 현존 최강 LMM '클로드 3' 출시..."GPT-4·제미나이 성능 능가"
  • 인간 투표로 순위 내는 LLM 리더보드..."기존 벤치마크 단점 보완"