권순일 업스테이지 부사장(오른쪽)과 이정수 플리토 대표가 MOU 체결 기념촬영을 하고 있다. (사진=업스테이지, 플리토)
권순일 업스테이지 부사장(오른쪽)과 이정수 플리토 대표가 MOU 체결 기념촬영을 하고 있다. (사진=업스테이지, 플리토)

한국어 대형언어모델(LLM) 리더보드 주최사인 업스테이지가 통번역 전문 플리토와 협력, 아시아권 언어 전문 LLM을 개발에 나선다. 그 일환으로 '다국어 LLM 리더보드'도 연다고 밝혔다.

인공지능(AI) 전문 업스테이지(대표 김성훈)는 AI 언어 데이터 전문 플리토(대표 이정수)와 'AI 언어 데이터 구축' MOU를 체결했다고 9일 밝혔다.

현재 빅테크 기업이 주도하는 대형언어모델(LLM)은 영어에 집중된 상태다. 아시아권의 언어는 학습 데이터가 부족한 실정이다.

이에 양사는 일본어, 태국어 등 다국어 언어 데이터를 구축, 저자원 언어도 고품질 LLM을 개발할 수 있도록 기반을 마련할 예정이다.

구체적으로 ▲한국어 언어모델 평가 플랫폼 ‘오픈-Ko LLM 리더보드’ 벤치마크 데이터셋 구축 ▲다국어 LLM 리더보드 운영 ▲저자원 언어 데이터 구축 및 저자원 언어 활용 LLM 현지화 ▲기업용 LLM 구축에 따른 데이터 공급 파트너십 강화 등 다양한 분야에서 협력을 강화하기로 했다.

업스테이지는 고품질의 저자원 언어 데이터를 확보, LLM '솔라'의 지원 언어를 확장해 동남아시아 등 다양한 지역별 언어에 특화 맞춤형 모델을 개발할 계획이다. 베트남어, 라오스어, 크메르어 등과 같은 아시아권역 저자원 언어 수집 및 데이터셋 구축 협력까지 나아간다는 설명이다.

솔라는 현재 한국어와 영어를 지원 중이며, 연내 일본어와 태국어까지 언어를 확대할 예정이다.

플리토는 언어 데이터와 AI 기술 간 시너지를 통해 언어 모델의 고도화에 기여할 예정이다. 다국어 병렬 말뭉치 구축 노하우와 저작권 이슈가 없는 텍스트-이미지-음성 데이터셋을 통해 언어 수집 기술 경쟁력을 높일 계획이다. 

김성훈 업스테이지 대표는 “언어모델로 촉발된 생성 AI 열풍이 전 세계를 흔드는 상황에서 양질의 언어 데이터 확보는 필수적인 과제”라며 “이번 협력을 통해 더 많은 사람들이 생성 AI 혁신을 경험할 수 있도록 데이터 고도화에 나설 것”이라고 말했다.

이정수 플리토 대표는 "저자원 언어 학습분야는 LLM 성능의 핵심 요소로 부상했다”라며 “고품질 데이터와 고도화 기술을 접목해 국내 생성 AI 생태계에 얼마나 긍정적인 기여를 할 수 있는지 보이자고 한다”라고 전했다. 

장세민 기자 semim99@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지