SK텔레콤(대표 박정호)이 7일 국립국어원(원장 소강춘)과 업무 협약을 체결했다. 국립국어원의 언어 정보를 활용해 한국어에 최적화된 차세대 인공지능(AI) 언어 모델을 개발하기로 협의했다.
차세대 AI 한국어 모델은 '한국어 범용 언어 모델'(GLM, General-Purpose Language Model)이다. 언어 관련 문제풀이, 글짓기, 번역 및 주어진 문장을 간단한 코딩을 GPT-3처럼 구현할 수 있게 된다.
GLM은 일상적인 감성대화, 다양한 업종이 있는 고객센터 대화 뿐만 아니라 시사, 문학, 역사, 게임에 이르기까지 다양한 언어 활동 영역에 적용될 수 있다. 신산업 분야에서 다양하게 추가 활용할 것으로 기대한다.
사람 능력 수준으로 평가받는 최신 언어 모델 GPT-3는 매개변수 1,750억개를 가지고 있다. SKT가 개발하는 GLM은 매개변수 1,500억개를 가진 거대 언어 모델로 개발될 예정이다. 이는 Open AI가 만든 영어 기반 최신 AI 언어 모델인 GPT-3와 비슷한 기능을 가진 한국어 기반의 AI 모델이 될 것으로 평가된다. 한편, 매개변수는 많을수록 AI 언어 모델의 성능이 높아진다.
GPT-3는 이전 버전인 GPT-2보다 100배 이상 크고, 보다 높은 정확도와 넓은 활용도를 갖고 있어 이와 비슷한 GLM 또한 한국어 AI 언어 모델로 뛰어난 결과물이 될 것으로 예상된다.
SKT는 올해 말까지 GLM을 개발하면서 내부 서비스 개선을 통해 모델 성능을 검증한 뒤 본격적인 상용화를 진행해 다양한 서비스를 확대할 예정이다. 또한, 한국어 언어모델 성능 평가 방법 개발과 한국어 데이터 품질 평가 연구도 함께 추진한다.
SKT는 2018년부터 AI 언어모델을 개발하기 시작했다. 2019년에는 KoBERT 개발로 챗봇 등에 활용했다. 작년 4월에는 'KoGPT-2'로 챗봇의 대화 기능을 업그레이드해 자연스럽도록 발전시켰다. 같은 해 10월에는 뉴스나 문서에 대한 고품질 요약문을 만들어내는 등 텍스트 처리 역량이 뛰어난 KoBART를 개발했다. 이를 통해 자연어를 이해하고, 처리하는 영역의 기술력을 강화시켰다.
이와 함께 국립국어원은 '2021년 국어 정보처리 시스템 경진대회'를 SKT의 AI 언어 모델을 활용해 개최한다. 언어소통능력을 겨루는 방식으로 개편해 한글날 주간에 개최할 예정이다.
SKT 데이비스 에릭 하트먼 랭귀지 슈퍼인텔리전스 랩(Language Superintelligence Labs)장은 "SKT는 한국어에 최적화된 인공지능 언어모델을 선제 개발해 한국어 정보화에 이바지하고 있다" 면서 "이번 국립국어원과의 협력을 계기로 한국어를 과학화, 세계화시키는 데도 기여할 계획" 이라고 밝혔다.
국립국어원 정희원 어문연구실장은 "앞으로도 인공지능 개발에 필요한 언어 정보자원을 지속적으로 발굴하며 관련 산업계와 학계에서 유용하게 활용될 수 있도록 시스템을 구축하겠다" 고 말했다.
AI타임스 이하나 기자 22hnxa@aitimes.com
