업스테이지(대표 김성훈)는 노코드 대형언어모델(LLM) 종합 평가 플랫폼 ‘이벨버스(Evalverse)’를 깃허브에 오픈소스 형태로 공개한다고 3일 밝혔다. 이를 통해 누구나 쉽게 LLM 성능을 테스트, 기술 향상에 도움을 주겠다는 의도다.
기존 LLM 성능 평가는 특정 데이터셋을 기준으로 응답 정확도를 체크하는 벤치마크 지표를 활용해 왔다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 ‘H6’ 지표가 대표적이며, 대화 능력 지표 ‘MT-벤치(MT-bench)’와 감성 평가 지표 ‘EQ-벤치’, 지시 이행 능력 지표 ‘IF이밸(IFEval)’ 등이 주로 활용됐다.
업스테이지의 플랫폼은 이런 주요 벤치마크를 한곳에 모아 놓은 것이다.
또 기존에는 특정 벤치마크를 위해 모델을 플랫폼에 제출해야 했지만, 이벨버스를 활용하면 여러 벤치마크를 한번에 진행할 수 있다.
특히 업무용 메신저 ‘슬랙’에 API 챗봇 형태로 연동, 사용성을 확대했다. 즉 챗봇과 1대 1를 통해 모든 평가 과정을 진행할 수 있다. 이용자들은 '호출'과 '평가' 등 채팅창에 단 2개의 명령어만 입력하면, 바로 원하는 모델을 불러내 테스트할 수 있다.
종합 리포트까지 한눈에 확인할 수 있어, 모델 비교 평가도 용이하다.
특히 오픈 Ko-LLM 리더보드의 벤치마크에는 등장하지 않았던 수학적 추론(GSM8K) 과 상식 추론(WinoGrade) 등을 추가했다.
오픈 Ko-LLM 리더보드에도 이를 적용할 것이냐는 질문에 대해서는 "한국어 리더보드 평가 지표도 조만간 대폭 확대 및 개편을 앞두고 있지만, 어떤 지표를 선보일지는 지속 검토 중"이라고 답했다.
업스테이지는 이벨버스 오픈소스 공개가 생성 AI 생태계의 발전과 상생을 위한 노력의 일환이라고 강조했다.
이 회사는 오픈 Ko-LLM 리더보드 구축에 이어, 자체 개발한 LLM '솔라'를 오픈 소스로 공개해 한국어 모델 전반의 성능을 높이는 데 일조했다. 또 최근에는 복잡한 데이터 전처리 기술을 전면 공개한 ‘데이터버스(Dataverse)’를 공개했다.
김성훈 업스테이지 대표는 “누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 돼서 기쁘다”라며 “앞으로 업스테이지는 글로벌 생성 AI 시장의 선두로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해 나갈 것”이라고 말했다.
장세민 기자 semim99@aitimes.com
