바이두의 '어니봇' 관련 이미지(사진=셔터스톡)
바이두의 '어니봇' 관련 이미지(사진=셔터스톡)

중국 바이두가 자사 대형언어모델(LLM) ‘어니’가 성능면에서 오픈AI의 ‘챗GPT’를 능가했다는 주장을 들고 나왔다.

27일(현지시간) CNBC 등 외신들에 따르면 바이두는 중국 국영 매체 중국과학저널에서 진행한 LLM 성능 테스트 결과를 인용해 자사의 '어니 3.5'가 종합 평가에서 'GPT-4'에는 뒤졌지만 ‘챗GPT’는 앞섰다고 주장했다.

중국과학저널은 인공지능(AI) 언어모델의 성능을 평가하는 벤치마크 테스트에서 AGIEval과 C-Eval 및 MMLU를 이용해 ‘어니 3.5’를 다른 7개 언어모델과 비교 평가했다.  

이 가운데 AGIEval 테스트에서 ‘어니 3.5’는 총점 57.11로 ‘GPT-4’의 61.48에는 못 미쳤으나 ‘챗GPT’의 44.73 보다는 높은 성적을 기록했다. 중국어의 경우 AGIEval, C-EVAL 테스트에서 모두 ‘어니 3.5’가 ‘GPT-4’도 앞섰다고 전했다.

바이두는 성명에서 지난 3월 베타 버전으로 공개한 ‘어니 3.0’에 비해 3.5 버전은 훈련 성능이 2배 향상됐고 추론 성능은 17배 증가했다고 밝혔다. 또 이를 기초모델로 개발한 챗봇인 ‘어니봇’은 플러그인 기능을 통해 인터넷 검색이 가능해졌다고 소개했다.

사우스차이나모닝포스트는 바이두의 ‘어니봇’이 신화통신 산하의 신화연구소가 이달에 실시한 성능 테스트에서 중국 기술 기업들이 개발한 ‘챗GPT’ 대안 모델 가운데 1위를 차지했다고 보도했다.

정병일 기자 jbi@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지