소량의 데이터로 학습할 수 있는 퓨샷 러닝이 가능한 언어 모델
200억 개의 매개변수로 구성된 인코더-디코더 구조의 seq2seq 모델
기계 번역 및 텍스트 요약에서 GPT-3보다 성능이 우수

아마존이 음성 비서 알렉사를 개선할 수 있는 새로운 AI 언어 모델을 공개했다.(사진=Iqvis)
아마존이 음성 비서 알렉사를 개선할 수 있는 새로운 AI 언어 모델을 공개했다.(사진=Iqvis)

아마존(Amazon)이 음성 비서 알렉사(Alexa)를 개선할 수 있는 새로운 AI 언어 모델을 공개했다. 

KDD(Knowledge Discovery and Data Mining Conference)에 발표된 논문에 따르면 ‘Alexa Teacher Models(AlexaTM) 20B’은 소량의 데이터로 새로운 작업을 학습할 수 있는 퓨샷 러닝(few-shot learning)이 가능한 seq2seq(sequence-to-sequence) 구조의 대규모 언어 모델이다.

seq2seq는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델이다. 챗봇(Chatbot)과 기계 번역(Machine Translation)이 대표적인 예로, 입력 시퀀스와 출력 시퀀스를 각각 질문과 대답으로 구성하면 챗봇으로 만들 수 있고, 입력 시퀀스와 출력 시퀀스를 각각 입력 문장과 번역 문장으로 만들면 번역기로 만들 수 있다. 그 외에도 텍스트 요약(Text Summarization), 음성-텍스트(Speech-to-Text) 변환 등에서 쓰일 수 있다.

이름에서 알 수 있듯이 AlexaTM 20B는 200억 개의 매개변수로 구성된 언어 모델이다. AlexaTM 20B는 GPT-3와 같은 디코더(decoder) 전용 구조의 다른 언어 모델과 달리 인코더-디코더(encoder-decoder) 구조의 seq2seq 모델이다. 이러한 유형의 구조에서 인코더는 양방향 인코딩을 사용해 입력 텍스트를 컨텍스트 벡터(context vector)로 표현하고 디코더는 해당 표현을 사용해 입력의 번역을 생성한다. 

반면에 디코더 전용 모델은 입력 텍스트의 왼쪽에서 오른쪽으로 단방향 인코딩을 사용한다. 이것은 선행하는 토큰을 기반으로 시퀀스의 다음 토큰을 예측하는 작업인 언어 모델링에는 적합하지만 AlexaTM 20B가 GPT-3보다 더 우수한 성능을 보이는 기계 번역 및 텍스트 요약에는 덜 효과적이다.

인코더-디코더 아키텍처가 있는 언어 모델에서 인코더는 양방향 인코딩을 사용하여 입력 텍스트의 표현을 생성하고 디코더는 해당 표현을 사용하여 시퀀스의 다음 토큰(예: 단어 및 구두점)을 예측한다.(사진=아마존)
인코더-디코더 아키텍처가 있는 언어 모델에서 인코더는 양방향 인코딩을 사용하여 입력 텍스트의 표현을 생성하고 디코더는 해당 표현을 사용하여 시퀀스의 다음 토큰(예: 단어 및 구두점)을 예측한다.(사진=아마존)

또한 AlexaTM 20B 모델은 잡음 제거(denoising) 및 인과적 언어 모델링(casual language modeling) 작업이 혼합된 사전 훈련 과정을 가지고 있다. 잡음 제거 작업을 수행하려면 모델이 누락된 범위를 찾고 완전한 버전의 입력을 다시 생성해야 한다. 인과적 언어 모델링은 의미 있는 텍스트를 계속 입력한다.

AlexaTM 20B는 사전 훈련 동안 80%의 시간 동안 잡음 제거 작업에 대해 훈련되고 20%의 시간에 인과적 언어 모델링(CLM)에 대해 훈련된다.(사진=아마존)
AlexaTM 20B는 사전 훈련 동안 80%의 시간 동안 잡음 제거 작업에 대해 훈련되고 20%의 시간에 인과적 언어 모델링(CLM)에 대해 훈련된다.(사진=아마존)

AlexaTM 20B 아키텍처의 가장 큰 성과는 퓨샷 러닝 기능에 있다. AlexaTM 20B는 효과적으로 퓨샷 러닝이 가능한 최초의 가장 큰 다국어 seq2seq 모델이다. 주어진 언어에서 특정 의도를 나타내는 입력이 주어지면 모델은 작업을 다른 언어로 일반화한다. 이를 통해 대규모 훈련 과정 없이 다양한 언어로 새로운 기능을 쉽게 개발할 수 있다. 

그 결과 AlexaTM 20B는 Flores-101 데이터 세트에서 지원되는 모든 언어 쌍에 걸쳐 적은 수의 학습 작업으로 최첨단 성능을 달성할 수 있었다. 또한 AlexaTM 20B는 이러한 여러 작업에서 GPT-3보다 성능이 뛰어나다.

AlexaTM 20B는 서로 다른 의도  또는 고객이 실행하기를 원하는 작업의 세 가지 예(book-restaurant, play-music 및 get-weather)와 함께 제공된다. 모델은 이것들을 새로운 의도 get-news-update에 대해 다른 언어로 일반화할 수 있다. 이를 통해 새로운 기능을 더 빠르게 동시에 여러 언어로 개발할 수 있다.(사진=아마존)
AlexaTM 20B는 서로 다른 의도  또는 고객이 실행하기를 원하는 작업의 세 가지 예(book-restaurant, play-music 및 get-weather)와 함께 제공된다. 모델은 이것들을 새로운 의도 get-news-update에 대해 다른 언어로 일반화할 수 있다. 이를 통해 새로운 기능을 더 빠르게 동시에 여러 언어로 개발할 수 있다.(사진=아마존)

AlexaTM 20B의 최신 버전은 아랍어, 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 일본어, 마라티어, 포르투갈어, 스페인어, 타밀어, 텔루구어 등의 언어를 지원한다. 이 기능은 리소스가 많은 언어와 리소스가 적은 언어의 언어 모델 간의 격차를 해소할 수 있다. 아마존은 비상업용 AlexTM 20B의 공개 버전을 출시할 예정이다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]구글, AI 언어모델 'LaMDA 2'를 위한 베타 테스트 공개

[관련기사]메타, 언어 모델 OPT-175B 무료 공개

키워드 관련기사
  • 구글, 5400억 매개변수 초대형 언어 모델 ‘PaLM’ 공개
  • [GTC 2022] KT, GPT-3 뛰어넘는 언어모델 만든다
  • "더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개