업스테이지(대표 김성훈)와 한국지능정보사회진흥원(NIA, 원장 황종성)은 공동 운영 중인 ‘오픈 Ko-LLM 리더보드’에 평가 지표를 추가하는 등 업그레이드를 진행한다고 11일 밝혔다.
추가 지표는 ‘추론 능력(Winogrande, 글 속 대명사 추론 능력)’과 ‘산술 추론 능력(GSM8K, 산술 연산 분야 추론능력)’ 두가지다.
허깅페이스 오픈 LLM 리더보드에서도 사용하고 있는 지표인 만큼, 한국어에 맞게 적용하면 국내 모델 성능 평가 체계를 국제 평가 기준과 대등한 수준으로 끌어올리는 계기가 될 것이라고 전했다.
추가 지표 개발에는 인공지능(AI) 언어 데이터 전문 플리토(대표 이정수)가 참여해 한국어에 맞는 번역 및 개발을 지원했다.
박찬준 업스테이지 수석연구원은 이번 업그레이드를 통해 "현재 지표 기준으로 오버피팅된 모델들을 거를 수 있고 더 객관적인 평가가 가능해질 것"이라며 "좋은 모델을 선별할 수 있을 것으로 기대한다"라고 말했다.
이어 "현재 제출된 1500개 이상의 모델을 재평가해야 하기 때문에 시간이 다소 소요될 것으로 보이며, 늦어도 7월 중으로 최종 반영이 목표"라고 덧붙였다.
한편 오픈 Ko-LLM 리더보드는 지난해 9월 오픈, 5월 말 현재 참가 대형언어모델(LLM) 수 1500개를 넘어섰다.
황종성 NIA 원장은 “NIA와 업스테이지는 한국어 LLM 발전을 위해 리더보드 평가 지표 및 체계를 지속적인 개선할 방침”이라며 “이를 통해 국내외 AI 연구자들 사이에서 더욱 활발한 교류와 협력이 이루어질 것으로 기대하고 있다”라고 말했다.
한편 업스테이지와 한국지능정보사회진흥원(NIA)이 공동 주최하는 리더보드의 상세 내용은 NIA 홈페이지나 허깅페이스 홈페이지에서 확인할 수 있다.
장세민 기자 semim99@aitimes.com
- [6월1주] 모아데이타, 한달 넘게 LLM 차트 상위권..."AI 헬스케어 서비스 목표 개발 중"
- 업스테이지-플리토, AI 언어 데이터 구축 협력…"솔라에 아시아 언어 추가"
- [5월 1주] 오픈 Ko-LLM 리더보드 모델 1400개 돌파 눈앞...상위권은 안정세
- 플리토, '오픈 Ko-LLM 리더보드’에 벤치마크 데이터셋 제공
- 업스테이지, 신한투자증권 특화 프라이빗 LLM 개발 나선다
- [6월 3주] 모레, 글로벌 리더보드 상위권 장기 랭크...국내 리더보드는 평가지표 확장
- NIA, 디지털정부 발전 유공으로 대통령 표창 수상
- 업스테이지-AWS, 아마존 클라우드 기반 '솔라' 공동 영업 추진
- 비전 모델 능력 평가하는 '멀티모달 아레나' 출시..."GPT-4o가 1위"
- NIA, AI 활용 사회현안 해결 세미나 개최..."AI로 악취 해소법 찾아"
- 플리토, ‘한국어 LLM 리더보드’ 신규 평가 지표 데이터셋 추가 제공
