(사진=셔터스톡)
(사진=셔터스톡)

중국 칭화대학교가 실시한 대형언어모델(LLM) 벤치마크에서 'GPT-4'나 '클로드 3' 등이 여전히 중국 모델을 큰 차이를 제치고 최고 성능을 기록했다. 중국 챗봇 중에서는 스타트업 지푸의 '챗GLM'이 바이두의 '어니봇'을 앞선 것으로 밝혀졌다.

사우스차이나모닝포스트는 22일 칭화대가 정부 기관인 중관촌 연구소와 공동으로 국내외 14개 주요 LLM 성능을 비교한 '슈퍼 벤치'라는 보고서를 발표했다고 보도했다.

이에 따르면 이 순위에서 전체 1위를 차지한 것은 GPT-4다. 연구진은 "GPT-4나 클로드 3와 같은 해외 모델은 이해와 정렬, 코딩 등에서 중국 모델과 명백한 격차를 보인다"라고 설명했다.

하지만 "중국의 선도 모델인 챗GLM 등도 일류 모델 수준에 가까운 성능을 발휘한다"라며 "격차는 점차 줄어들고 있다"라고 강조했다.

또 "그러나 코드 작성 및 에이전트 역할 측면에서 국내 대형 모델과 해외 일류 모델 사이에는 여전히 큰 격차가 있으며, 국내 모델은 여전히 ​​열심히 노력해야 한다"라고 밝혔다.

슈퍼 벤치에 등장한 모델 (사진=칭화대)
슈퍼 벤치에 등장한 모델 (사진=칭화대)

중국 챗봇 중에서는 메이투안의 지원을 받는 지푸의 '챗GLM'이 가장 우수한 것으로 나타났다. 이어 어니봇, 퉁이첸원, 문샷 등이 뒤를 이었다.

특히 지푸는 지난해 9월 중국 정식 출시 직후 블룸버그가 실시한 중국 챗봇 테스트에서도 어니봇을 제치고 가장 뛰어난 챗봇으로 꼽혔다.

이번 평가에는 오픈 소스 모델로 허깅페이스 등에서 인기를 끈 큐원'과 'Yi'도 등장했다. 지난해 출시된 이들 모델은 이번 평가에서는 뒤로 쳐졌다. 

한편 지푸를 비롯해 최근 대규모 투자 유치로 관심을 모은 바이촨, 문샷 AI, 미니맥스 등은 중국에서는 '새로운 4마리의 AI 호랑이'로 통한다.

연구진은 최근에 점점 더 많이 등장하는 LLM을 조사하기 위한 "객관적이고 과학적인 평가 기준 제공"을 목표로 한다고 밝혔다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지