오픈 LLM 리더보드에서 19.63점으로 69위에 오른 업스테이지 (사진=허깅페이스)
오픈 LLM 리더보드에서 19.63점으로 69위에 오른 업스테이지 (사진=허깅페이스)

허깅페이스가 평가 지표를 대폭 교체함에 따라 '오픈 LLM 리더보드' 순위에 대격변이 일어났다. 평가 항목을 전부 교체하고, 난이도도 대폭 끌어 올렸다.

그 바람에 기존 상위권을 지키던 모델이 모두 사라지고, '큐원'이나 '라마3' 등 일반적으로 성능이 뛰어나다고 알려진 모델이 높은 순위를 점령했다.

이 가운데 국내 기업으로는 업스테이지(대표 김성훈)의 '솔라'만이 100위권에 살아 남았다. 솔라 인스트럭트 모델(19.63점)은 69위, 솔라 파운데이션 모델(16.77점)은 88위를 기록했다.

업스테이지 관계자는 "지난해 공개 이후 업데이트를 거치지 않은 모델"이라며 "어떤 조치나 재학습은 전혀 거치지 않았으며, 다만 벤치마크가 바뀌며 순위가 변동했다"라고 전했다.

반면 국내의 '오픈 Ko-LLM 리더보드'는 장기간 순위와 점수 변동이 거의 없는 상태다. 하지만 평가지표 확장을 예고한 만큼, 새로운 기준이 적용될 경우 글로벌 리더보드와 같은 큰 변동도 예측할 수 있을 듯하다.

오픈 Ko-LLM 리더보드를 운영하는 업스테이지 측은 "국내 리더보드도 대폭 개선 중에 있으며, 새로운 데이터 스폰서들이 참여할 예정"이라고 밝혔다.

또 "글로벌 리더보드의 개편은 매우 고무적으로 보고 있으며, 업스테이지도 비슷한 기조로 갈 생각"이라고 덧붙였다.

특히 기존 시즌1에서는 LLM의 근본적인 능력(상식, 추론, 자연어이해, 진실성 등)에 초점을 맞췄다면, 시즌 2는 LLM의 부분적이고 전문적인 능력에 더 집중할 계획이다. 

이어 "LLM을 평가하는 과정에 있어서 리더보드 관련 이슈도 많이 발생하지만, 그만큼 좋은 평가 도구가 없는 것도 사실이라 생각한다"라며 "앞으로 더 많은 리더보드가 나와서 LLM을 다각도로 평가할 수 있게 되기를 기대한다"라고 말했다.

5일 오픈 Ko-LLM 리더보드 (사진=업스테이지, NIA)
5일 오픈 Ko-LLM 리더보드 (사진=업스테이지, NIA)

한편 업스테이지와 한국지능정보사회진흥원(NIA)이 공동 주최하는 리더보드의 상세 내용은 NIA 홈페이지허깅페이스 홈페이지에서 확인할 수 있다.

장세민 기자 semim99@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지