[1월1주] 리더보드 시즌2, 평가 86% 진행…'젬마 2' 내세운 해외 개발자 상위권

장세민 기자
업데이트 2025.01.18 17:22
입력 2025.01.04 18:00
댓글 0

이 기사를 공유합니다

3일 현재 오픈 Ko-LLM 리더보드 시즌2 상위권 (사진=업스테이지, NIA)

‘오픈 Ko-LLM 리더보드 시즌2’가 전체 대상 모델 중 86%의 평가를 마치며 정식 오픈 초읽기에 들어갔다. 이 가운데 상위권은 '젬마 2'를 기본으로 한 최신 해외 개발자들의 모델이 차지했다.

업스테이지(대표 김성훈)는 3일 기준 전체 모델 1250여개 가운데 1089개 평가를 완료, 진행률 86.4%를 달성했다고 밝혔다. 평가 대기 중인 모델은 이제 173개로 줄었다.

이 가운데 리더보드 순위권에서도 의미 있는 움직임이 이어지고 있다. 지난해 11월 최고 평균 점수 50점 돌파 모델이 등장한 데 이어 두달 만에 55점대 모델이 등장했다. 1위인 니콜라스 비어바워, 2위 바이런 에버슨, 3위 언스롯 AI 등의 모델이 모두 55점대를 기록했다.

특히 이들 해외 개발자의 모델은 초등수학 실력을 가리는 'Ko-GSM8K' 분야에서 모두 70점대를 기록, 다른 모델들과의 격차를 크게 벌렸다. 비어바워의 모델(nbeerbower/gemma2-gutenberg-27B)은 무려 71.72점이다.

즉, 해외 개발자들의 모델은 한국어 수학 실력에서 압도적인 성능으로 상위권을 차지한 셈이다. 그리고 1~3위 모두 구글의 젬마 2를 베이스로 삼았다는 것도 주목할 만하다.

이는 지난해 시즌 1에서 '솔라'와 '라마' 등이 주를 이뤘던 것과는 달라진 모습이다. 현재 상위권의 베이스 모델은 젬마 2 외에도 알리바바의 '큐원 2.5' 등 지난해 중순에 등장한 모델이 대부분을 차지했다.

업스테이지 측은 "시즌2는 지난해 시즌1과는 확실히 다른 양상을 보이고 있다"라며 "젬마나 큐원 등 오픈 소스 모델의 한국어 성능이 전반적으로 향상한 탓에 해외 개발자들도 이 영향으로 좋은 성적을 거둔 것으로 보인다"라고 분석했다.

국내 기업으로는 링크브릭스와 이스트소프트, 야놀자, 티쓰리큐 등이 상위권에 올랐다.

업스테이지와 한국지능정보사회진흥원(NIA)이 공동 주최하는 리더보드의 상세 내용은 NIA 홈페이지나 허깅페이스 홈페이지에서 확인할 수 있다.

장세민 기자 semim99@aitimes.com