(사진=셀렉트스타)
(사진=셀렉트스타)

네이버, SK텔레콤, KT, LG AI 연구원 등 국내 대형언어모델(LLM) 기업이 셀렉트스타, 스캐터랩 등 인공지능(AI) 전문 스타트업과 컨소시엄을 꾸려 LLM 벤치마크 사업에 참가한다. 이들이 구축할 데이터셋은 한국형 LLM 리더보드에도 활용, 국내 LLM 붐에 일조할 전망이다. 

한국지능정보사회진흥원(NIA, 원장 황종성)은 LLM 기업과 AI 스타트업 등이 ‘초거대 언어 모델 신뢰성 벤치마크 데이터’ 사업에 참여한다고 4일 발표했다.

셀렉트스타가 주관 기업으로 참여하는 이 사업은 AI 학습용 데이터 구축 지원 사업의 하나로, LLM 학습과 평가에 필요한 데이터셋을 만드는 내용이다. 무해성(Harmlessness), 정보 정확성(Honesty), 도움 적정성(Helpfulness) 등 기준에 맞춰 질문과 답변을 구성하고, AI 모델의 신뢰성을 정량적으로 평가한다. 구축 데이터는 모델 개발 및 고도화, AI 신뢰 기준 개발 등에 활용할 수 있다.

NIA는 측정 기준 ‘3H’가 사람과 상호작용하는 고차원 AI에 요구되는 가치라고 강조했다. 대표적으로 앤트로픽은 지난 5월 생성 AI의 유해성을 최소화하기 위한 '헌법적 AI(Constitutional AI)’를 공개하며 ”우리는 AI 능력이 인간 수준에 도달하거나 그 이상이 되더라도 도움 되고, 진실하며 무해하게(Helpful, Honest, Harmless) 유지되는 AI 시스템을 훈련하고 싶다”고 밝힌 바 있다.

자문을 맡은 최윤재 KAIST 김재철 AI 대학원 교수는 “AI의 엄청난 발전 속도를 고려했을 때 국민 개개인이 일상 생활에서 AI로부터 직간접적으로 영향을 받을 시점이 머지않았다"라며 "이에 대비하기 위해 우리가 미리 3H 기준을 정립한다는 점에서 이번 벤치마크 데이터셋의 역할이 대단히 중요하다“고 전했다.

이처럼 이번 사업은 국내 선도 AI 기업들이 최초로 신뢰성 기준을 마련하고, 이를 측정할 수 있는 벤치마크 데이터셋까지 구축한다는 데 의의가 있다.

특히 벤치마크 데이터셋을 활용, 국내외 기업이 구축한 AI 모델에 대한 평가를 진행할 수 있다는 점도 중요하다.

이와 관련, NIA는 업스테이지와 공동으로 운영하는 '오픈 Ko-LLM 리더보드'를 구축, 지난달 27일부터 공개한 바 있다.

NIA와 업스테이지의 10월3일 현재 오픈 Ko-LLM 리더보드 (사진=NIA)
NIA와 업스테이지의 10월3일 현재 오픈 Ko-LLM 리더보드 (사진=NIA)

오픈 Ko-LLM 리더보드는 허깅페이스의 ‘오픈 LLM 리더보드’를 모델로 삼아 한국어로 구축한 LLM 능력 순위표다. 빅테크가 직접 구축하거나 오픈 소스 모델을 기반으로 스타트업 등이 미세조정한 모델을 ▲추론능력 ▲상식능력 ▲언어이해력 ▲환각방지능력 등 4가지 기준으로 평가, 종합 순위를 매기는 시스템이다. 국내 리더보드에는 ▲한국어 상식생성능력을 추가했다.

이를 통해 AI 기업의 자연스러운 기술 경쟁을 유도하고 기술력을 갖춘 기업을 발굴하는 등 'LLM 생태계'를 활성화한다는 의도다. 여기에 셀렉트스타가 주관하는 벤치마크 점수가 더해질 예정이다. 구체적인 논의는 없었지만, 업스테이지의 평가와 셀렉트스타 주관 평가가 합산해 평균치를 내는 방식이 유력하다. 이를 통해 LLM 리더보드의 객관성을 더 확보할 수 있다는 분석이다.

NIA 관계자는 “두 사업 모두 국내 LLM 연구개발 생태계 활성화를 위해 추진 중에 있으며, 내년에 ‘초거대 언어모델 신뢰성 벤치마크 데이터’를 활용한 지표를 ‘오픈 Ko-LLM 리더보드’에 신설할 계획”이라며 “이 외에도 올해 구축 중인 데이터와 내년 신규 구축 예정인 법률, 행정, 금융 등 다양한 분야의 LLM용 데이터를 활용한 평가 지표들을 지속적으로 추가, 개선해 나갈 예정”이라고 전했다.

김세엽 셀렉트스타 대표는 “셀렉트스타는 한국어 대표 벤치마크 데이터셋 클루(KLUE)와 코쿼드(KorQuAD 2.0) 구축에 참여한 유일한 데이터 기업“이라면서 “세계 최고 권위 AI 학회에 여러 차례 등재된 데이터셋을 만든 경험으로 믿을 수 있는 AI 개발에 기여하겠다”고 말했다.

업스테이지 측도 환영의 뜻을 밝혔다. 김성훈 업스테이지 대표는 이날 링크드인 포스트를 통해 "KO-LLM 발전을 위해서는 함께 성능을 측정하고 기록하는 것이 매우 중요하다"고 말했다. 

더불어 "현재 60개의 모델이 리더 보드에 올라와 있다"라며 "국내는 물론 해외의 모델들도 많이 올라와, 한국어도 영어처럼 세상 모든 LLM의 기본이 됐으면 좋겠다"라고 밝혔다.

이주영 기자 juyoung09@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지