알리바바가 동남아시아의 다양한 언어를 위해 특별히 설계된 대형언어모델(LLM)을 출시했다. 동남아의 잠재력을 인정, 시장을 확대하려는 전략적 행보다.
사우스차이나모닝포스트(SCMP)는 11일(현지시간) 알리바바의 연구부서인 다모 아카데미가 베트남어, 인도네시아어, 태국어, 말레이어, 크메르어, 라오스어, 타갈로그어 및 버마어 데이터셋에 대해 사전 훈련한 ‘동남아LLM(SeaLLM)’을 출시했다고 보도했다.
이에 따르면 동남아LLM은 알리바바의 첫번째 지역 특화 LLM으로, 언어 및 안전 작업에서 다른 오픈 소스 모델보다 뛰어난 성능을 보였다.
특히 알리바바는 동남아를 성장 잠재력을 갖춘 핵심 시장으로 인식하고 있다. 예를 들어 알리바바의 동남아 전자상거래 플랫폼 라자다(Lazada)는 2030년까지 이 지역의 소비자 3억명을 대상으로 매출 1000억달러를 목표로 하고 있다.
이를 위해 알리바바는 기업이 동남아 언어를 기반으로 하는 인공지능(AI) 애플리케이션을 사용해 시장에 진출할 수 있도록 AI 챗봇 ‘동남아LLM 챗(SeaLLM Chat)’을 제공한다.
알리바바는 동남아LLM이 지역 언어 작업에서 '챗GPT' 등 다른 LLM 성능을 능가한다고 밝혔다. 최대 9배 더 긴 텍스트를 해석하고 처리할 수 있으며, 라오스 및 크메르어 등 데이터가 적은 언어와 영어 간의 번역에서 더 나은 결과를 얻었다고 설명했다.
빙 리동 다모 아카데미 연구소장은 “동남아LLM이 문화적 풍부함을 포용할 수 있다”라며 “역사적으로 디지털 영역에서 과소평가됐던 지역에서 혁신을 이룰 수 있다”라고 말했다.
한편 올해 11월까지 중국 기업과 연구기관에서 LLM을 230여개나 개발한 것으로 알려지며, 중국 내에서는 더 이상 LLM을 개발하는 것은 자원 낭비라는 지적이 나올 정도로 경쟁이 치열하다.
이 가운데 지난 4월 출시된 알리바바의 LLM ‘통이첸원(Tongyi Qianwen)’은 오픈 소스 AI 플랫폼 허깅페이스가 발표하는 실시간 순위에서 11일 기준 4위를 차지했다.
하지만 LLM의 빠른 성장에도 불구하고 분석가들은 중국 AI 시장이 미국의 칩 수출 통제, 킬러 앱 부족 등으로 여전히 어려움에 직면해 있다고 지적했다.
박찬 기자 cpark@aitimes.com
