한국어 대형언어모델(LLM) 벤치마크 '오픈 Ko-LLM 리더보드'가 지난 12일 공식 평가지표 개편 이후 1700여개에 달하는 기존 모델 반영에 속도를 내고 있다. 다음달 중순 추석 전까지는 새 평가 기준으로 상당수 모델이 테스트를 마칠 것으로 전망됐다.
업스테이지(대표 김성훈)는 한국지능정보사회진흥원(NIA, 원장 황종성)과 운영 중인 '오픈 Ko-LLM 리더보드'의 시즌 2 평가 지표 반영이 오는 9월 추석까지는 상당수 완료될 계획이라고 16일 밝혔다.
오픈 Ko-LLM 리더보드는 국내 언어모델 성능의 향상과 함께 벤치마크를 전면 교체, ▲Ko-GPQA(대학원 수준 추론) ▲Ko-WinoGrande(상식 추론) ▲Ko-GSM8K(초등수학) ▲Ko-EQ-Bench(감성) ▲Ko-IFEval(지시 이행) ▲KorNAT-Knowledge(한국어 신뢰성) ▲KorNAT-Social-Value(사회적 가치) ▲Ko-Harmlessness(무해성) ▲Ko-Helpfulness(실용성) 등 9개의 평가지표를 새로 선보였다.
업스테이지 관계자는 "평가지표가 전면 개편을 이룬 만큼 기존 1700여개의 모델을 모두 반영하는 데 생각보다 시간이 걸리고 있다"라며 "펜딩 건이 총 2000여개에 달해 글로벌 리더보드에 버금가는 규모를 갖춘 상황"이라고 전했다.
이어 "GPU 등 인프라 관련 상황은 업스테이지 소관이 아니기 때문에 진행 추이를 정확히 예측할 수는 없지만, 추석까지는 상당 부분 마칠 것으로 보인다"라고 말했다.
16일 현재 리더보드에는 43개의 모델이 새 기준을 통해 차트에 반영돼 있는 상태다.
업스테이즈 측은 "실용적인 벤치마크를 목표로 하는 만큼 순위권 모델에도 많은 변화가 따를 것으로 보인다"라고 덧붙였다.
장세민 기자 semim99@aitimes.com
