오픈 소스 LLM 생태계 확장 및 신뢰할 수 있는 AI 구축 목표
"중소업체 기술력 부각 기회 마련"

김성훈 스테이지 대표(왼쪽)와 황종성 NIA 원장이 AI 허브 데이터 활용 업무협약식에서 포즈를 취하고 있다. (사진=업스테이지) 
김성훈 스테이지 대표(왼쪽)와 황종성 NIA 원장이 AI 허브 데이터 활용 업무협약식에서 포즈를 취하고 있다. (사진=업스테이지) 

한국어 오픈 소스 대형언어모델(LLM)의 성능과 국내 ML옵스(MLOps) 기업의 실력을 평가할 수 있는 '상설 차트'가 생긴다. 업스테이지가 한국형 오픈 소스 LLM '리더 보드'를 구축한다고 밝혔다.

업스테이지(대표 김성훈)는 한국지능정보사회진흥원(NIA, 원장 황종성)과 한국형 오픈소스 LLM 리더보드를 구축하기 위해 ‘AI 허브(Hub) 데이터 활용 업무협약’을 체결했다고 5일 전했다. 

이번 협약에 따라 업스테이지는 NIA의 인공지능(AI) 학습용 데이터 제공 플랫폼인 AI 허브의 한국어 데이터를 활용, ‘오픈-Ko LLM 리더보드’를 9월 중으로 오픈할 계획이다.

허깅페이스 오픈 LLM 리더보드의 한국 버전인 ‘오픈-Ko LLM 리더보드’는 한글 기반으로 개발한 LLM의 성능을 평가하고 순위를 매기는 플랫폼이다. ▲추론(ARC) ▲상식 능력(Hellaswag) ▲언어 이해 종합능력(MMLU) ▲환각 현상 방지(TruthfulQA) 등 기존 허깅페이스 평가 항목 4가지에 ▲윤리 또는 전문가 지식 등을 추가할 방침이다.

누구나 메타의 '라마 2'나 데이터브릭스의 '돌리' 등 오픈 소스 모델을 최적화한 한국어 LLM을 올리면, 이를 평가하고 점수를 1위부터 공개한다. 이에 따라 상위권 모델을 내놓은 기업의 기술력을 부각한다는 의도다. 업스테이지 역시 허깅페이스 오픈LLM 리더보드 1위 등극을 통해 세계적으로 기술력을 주목받은 바 있다.

이처럼 평가 시스템 구축은 오픈 소스 생태계 확장과 '신뢰할 수 있는 AI 구축'이라는 목표를 위해 진행한다고 설명했다.

최근 기업의 AI 도입이 빠르게 진행되며 맞춤형 AI 모델을 구축하는 ML옵스 수요가 늘어나고, 글로벌 빅테크부터 국내 스타트업까지 상당수가 이 분야에 집중하고 있다. 이 가운데 국내 기업에 실제 수요가 있는 '한국어 모델'을 잘 구축하는 업체를 이번 리더보드를 통해 적극 발굴해 낸다는 취지다.

즉 기존 네이버나 카카오, 통신 3사에 몰렸던 LLM 집중도를 분산하고 중소 스타트업과 전문 기술 기업도 빛을 볼 수 있는, 생태계를 확장하려는 의도다.

업스테이지 측은 "초기에 몇개의 모델이 등록될지 매우 궁금하다"라며 "리더 보드를 통해 ML옵스 능력을 인정받는 기업이 늘어날수록 참가도 늘어날 것으로 기대한다"고 밝혔다.

또 오픈 소스의 특성상 '신뢰할 수 있는 AI' 구축에도 일조하겠다는 뜻을 담았다. 특히 테스트 항목 중 새롭게 추가할 'AI 윤리' 항목의 경우, 세계적으로도 이를 수치화한 평가 수단이 등장한 사례를 찾기는 어려워 큰 관심이다. 이에 대해서는 내외부 논의를 거쳐 조만간 평가 기준을 발표하겠다고 밝혔다.

업스테이지 모델이 허깅페이스 오픈 LLM 리더보드 1위를 차지하던 당시 순위 (사진=업스테이지)
업스테이지 모델이 허깅페이스 오픈 LLM 리더보드 1위를 차지하던 당시 순위 (사진=업스테이지)

이처럼 리더 보드 구축이 가능한 것은 업스테이지가 테스트 항목을 직접 평가할 수 있을 정도로 노하우가 쌓였기 때문이다. 지난 7월 허깅페이스 리더보드에서 1위를 차지한 것도 평가항목에 대한 정확한 이해와 분석이 있었기 때문에 가능한 일이었다.

업스테이즈 측은 "단순히 우리 기술력을 과시하려는 것이 아니라, 중소 스타트업까지 ML옵스 분야에서 자리를 잡을 기회를 만들 기회가 되길 바라는 것"이라며 "많은 기업이 참가, 한국형 ML옵스의 저력을 보여주는 무대가 되길 바란다"고 밝혔다.

한편 NIA는 업스테이지와의 협력을 통해 '1T 클럽'에도 가입, 양질의 데이터를 제공키로 약속했다. 1T 클럽은 업스테이지가 자체 LLM 구축을 위해 내놓은 학습 데이터 저작권 해결책으로, 향후 LLM 운영으로 발생하는 수익 중 일부를 데이터 제공자에게 배분하는 세계 최초의 '학습 데이터 수익 배분 시스템'이다. 이를 통해 외부 기업과의 상생을 꾀한다는 의도다.

김성훈 업스테이지 대표는 "NIA와의 협약을 통해 한국어 데이터 부족 문제를 해결하고, 국내외 시장에서 경쟁력 있는 AI 플랫폼을 제공할 수 있게 됐다"며 "한국형 오픈 LLM 리더보드를 통해 국내 LLM들의 성능과 혁신성을 증명하고, AI 발전과 보급에 노력하겠다"고 말했다.

황종성 NIA 원장은 “업스테이지와의 협약을 통해 AI 허브의 데이터가 국내외 AI 시장에서 활용될 수 있게 됐다"며 "한국형 오픈 LLM 리더보드를 통해 국내 LLM 수준과 다양성을 높이고, AI 생태계 구축에 더욱 힘쓰겠다"고 밝혔다.

한편 NIA는 AI 허브를 통해 다양한 분야의 데이터를 수집하고 가공해 AI 개발자들에 무료 제공하고 있다. NIA는 2025년까지 1300여 종의 데이터를 구축할 계획이다.

이주영 기자 juyoung09@aitimes.com

키워드 관련기사
  • "세계 1위 기술 증명...업스테이지에 '글로벌'은 도전 아닌 현실"
  • 업스테이지, LLM 구축 앞서 저작권 해결 나섰다
  • 뤼튼·업스테이지 등 6개사, 국내 첫 '생성 AI 스타트업 협회' 추진