‘오픈 Ko-LLM 리더보드 시즌2’가 전체 대상 모델 중 86%의 평가를 마치며 정식 오픈 초읽기에 들어갔다. 이 가운데 상위권은 '젬마 2'를 기본으로 한 최신 해외 개발자들의 모델이 차지했다.
업스테이지(대표 김성훈)는 3일 기준 전체 모델 1250여개 가운데 1089개 평가를 완료, 진행률 86.4%를 달성했다고 밝혔다. 평가 대기 중인 모델은 이제 173개로 줄었다.
이 가운데 리더보드 순위권에서도 의미 있는 움직임이 이어지고 있다. 지난해 11월 최고 평균 점수 50점 돌파 모델이 등장한 데 이어 두달 만에 55점대 모델이 등장했다. 1위인 니콜라스 비어바워, 2위 바이런 에버슨, 3위 언스롯 AI 등의 모델이 모두 55점대를 기록했다.
특히 이들 해외 개발자의 모델은 초등수학 실력을 가리는 'Ko-GSM8K' 분야에서 모두 70점대를 기록, 다른 모델들과의 격차를 크게 벌렸다. 비어바워의 모델(nbeerbower/gemma2-gutenberg-27B)은 무려 71.72점이다.
즉, 해외 개발자들의 모델은 한국어 수학 실력에서 압도적인 성능으로 상위권을 차지한 셈이다. 그리고 1~3위 모두 구글의 젬마 2를 베이스로 삼았다는 것도 주목할 만하다.
이는 지난해 시즌 1에서 '솔라'와 '라마' 등이 주를 이뤘던 것과는 달라진 모습이다. 현재 상위권의 베이스 모델은 젬마 2 외에도 알리바바의 '큐원 2.5' 등 지난해 중순에 등장한 모델이 대부분을 차지했다.
업스테이지 측은 "시즌2는 지난해 시즌1과는 확실히 다른 양상을 보이고 있다"라며 "젬마나 큐원 등 오픈 소스 모델의 한국어 성능이 전반적으로 향상한 탓에 해외 개발자들도 이 영향으로 좋은 성적을 거둔 것으로 보인다"라고 분석했다.
국내 기업으로는 링크브릭스와 이스트소프트, 야놀자, 티쓰리큐 등이 상위권에 올랐다.
업스테이지와 한국지능정보사회진흥원(NIA)이 공동 주최하는 리더보드의 상세 내용은 NIA 홈페이지나 허깅페이스 홈페이지에서 확인할 수 있다.
장세민 기자 semim99@aitimes.com
- [2024 결산] (5) 국내 AI 기업 살린 리더보드...국내외서 잇달아 '스타 탄생'
- [11월4주] 리더보드 시즌2, 모델 평가 999개 완료…링크브릭스 1·4위 차지
- [10월4주] 이스트소프트·KT ds 상위권 올라...700개 모델 평가 완료
- [1월3주] 리더보드 시즌2 1230여개 모델 평가 완료…국내 개발자 6위 진출
- [2월 2주] 딥시크 미세조정, 해외 리더보드에 속속 등장...국내는 아직 잠잠
- 링크브릭스, 글로벌 리더보드 첫 톱 10...“에이전트 개발 가능한 플랫폼 개발”
- 링크브릭스 호라이즌 AI, 설립 4개월만에 20억 투자 유치
