8일 현재 오픈 Ko-LLM 리더보드 (사진=업스테이지, NIA)
8일 현재 오픈 Ko-LLM 리더보드 (사진=업스테이지, NIA)

한국어 대형언어모델(LLM) 성능 평가에서 처음으로 평균 60점을 넘긴 모델이 등장했다.

투디지트(대표 박석준)는 9일 현재 'davidkim205/komt-solar-10.7b-sft-v5' 모델로 평균 60.59점을 기록, 스테이지와 한국지능정보사회진흥원(NIA)이 공동으로 주최하는 '오픈 Ko-LLM 리더보드' 3월2주 차 순위에서 1위를 차지했다.

지난해 9월27일 오픈 이후 6개월여 동안 1000개가 넘는 모델이 Ko-LLM 리더보드에 등장했지만, 평균 60점을 넘긴 모델이 등장한 것은 처음이다.

특히 이 모델은 전체 모델 중 가장 뛰어난 '상식능력(HellaSwag)'을 선보였다(69.62점). 또 '환각방지능력(TruthfulQA)'에서도 67.51점으로 3위에 올랐다. '추론능력(ARC)'도 6위(57.08점)에 해당한다.

투디지트는 사용자 취향과 관심사에 따라 맞춤형 뉴스를 제공하는 초개인화 신문 서비스를 제공하는 기업이다. 이를 고려하면 상식과 환각방지 등에서 높은 점수를 받은 것이 당연해 보인다.

투디지트 측은 "아직 기술실증 단계에 불과하다"라며 "향후 더 발전한 성능의 언어 모델을 선보일 수 있을 것"이라고 예고했다.

실제로 1위 모델은 직전 버전을 무려 평균 1점 이상 끌어올린 결과다. 기존 'v3' 버전은 현재 3위다. 

박석준 투디지트 대표
박석준 투디지트 대표

한편 투지디트의 1위 모델은 'Edentns/DataVortexS-10.7B-dpo-v1.11'를 베이스로 하고 있다. 이든티앤에스의 이 모델은 이번 주 2위(59.56점)에 올랐다.

이든티앤에스도 이전 버전보다 평균 점수 0.3점 이상 끌어 올리며 60점 돌파를 눈앞에 두고 있다. 

이로써 두달 가까이 한국어 능력 1위 자리를 지키던 롯데정보통신의 모델은 4위로 밀려났다.

한편 대학의 모델도 오랜만에 10위 권에 진입했다. 지난 8일 10위에 오른 'logicker/SkkuDataScience-DPO-v2-440-ckpt'는 성균관대학교 소속 개발자의 결과물이다. 상위권 모델 중 유일하게 알리바바 '큐원'을 기반으로 사용했다.

리더보드 상세 내용은 NIA 홈페이지허깅페이스 홈페이지에서 확인할 수 있다. 

장세민 기자 semim99@aitimes.com

키워드 관련기사
  • [2월 4주] 롯데정보통신, 40여일간 1위 수성...케이씨넷 개발자 8위에 올라
  • [2월 2주] RPA 전문 이든티앤에스 2위 진출..."데이터·AI 전환 성공적"
  • [1월 5주] CJ올리브네트웍스 본격 등장...'롯데GPT'를 탄생시킨 리더보드