아마존이 세계 최대 규모의 텍스트 음성 변환(TTS) 모델을 선보인다. 이전 모델에 비해 복잡한 문장도 자연스럽게 발음하는 능력이 대폭 향상됐다는 평가다.
테크크런치는 15일(현지시간) 아마존이 복잡한 문장을 정확하고 자연스럽게 표현하는 새로운 텍스트 음성 변환 모델 '베이스 TTS(BASE TTS)’를 공개했다고 보도했다. 해당 논문은 아카이브에 게재됐다.
이에 따르면 베이스 TTS는 공개적으로 이용 가능한 최대 10만시간 분량의 음성 데이터를 훈련 데이터셋으로 사용했으며, 이 중 90%는 영어이고 나머지는 독일어, 네덜란드어, 스페인어다.
가장 큰 버전인 ‘베이스-라지(BASE-large)’ 모델은 9억8000만개의 매개변수로, 이는 현재 가장 큰 TTS 모델로 알려졌다. 이외에 1만시간과 1000시간의 음성 데이터를 기반으로 훈련한 4억개와 1억5000만개의 매개변수 모델을 제공한다.
베이스 TTS는 두개의 개별 AI 모델을 합친 형태다. 우선 사용자가 입력한 텍스트를 '음성 코드'라는 수학적 표현으로 변환한다. 이어 음성 코드를 오디오로 변환한다.
첫번째 모델은 오픈AI의 'GPT-4'와 같은 ‘트랜스포머(Transformer)’ 아키텍처 기반이다. 이를 통해 모델은 단어의 의미를 결정할 때 맥락을 고려할 수 있다. 이를 통해 입력 데이터를 더 정확하게 해석할 수 있다.
트랜스포머 모델로 사용자가 입력한 텍스트를 음성 코드로 변환하면 시스템의 다른 구성 요소가 이를 더 쉽게 처리할 수 있다. 또 음성 코드를 압축해 처리 속도를 높이고, 생성하는 오디오에 배경 소음과 같은 불필요한 요소를 제거한다.
음성 코드가 준비되면 베이스 TTS를 구성하는 두번째 AI 모델로 이동, 데이터를 스펙트로그램으로 변환한다. 스펙트로그램은 음파를 시각화하는 데 사용되는 그래프다. 이런 그래프를 통해 쉽게 AI 생성 음성으로 변환될 수 있다.
아마존은 전문 언어학자의 도움과 '무시라(MUSHRA)'라는 자동 평가 벤치마크를 통해 베이스 TTS의 기능을 평가했다. 그 결과 이전 모델보다 더 자연스럽게 들리는 방식으로 입력 텍스트를 소리내어 읽을 수 있다고 판단했다.
특히 평가 중에 베이스 TTS는 ‘쉿(shh)’과 같은 소리나 ‘@’와 같은 기호를 성공적으로 발음했다. 또 외국어와 질문이 포함된 영어 문장을 큰 소리로 읽어주는 데에도 성공했다.
아마존에 따르면 베이스 TTS는 평가 데이터셋에 포함된 일부 문장 유형을 처리하도록 특별히 훈련되지 않았음에도 불구하고 정확하게 작업을 완료했다.
이에 대해 "단 몇초의 음성 참조 데이터만으로 복제가 가능한 고품질 모델"이라며 "복합 명사, 감정, 외국어, 부가언적 특성, 문장 부호 등 다양한 영역의 생성에 초점을 맞췄다"라고 설명했다.
이처럼 아마존이 음성 모델에 공을 들이는 것은 주력 제품인 음성 비서 '알렉사'를 염두에 둔 것이다. 아마존도 알렉사를 '챗GPT'와 같은 AI 챗봇으로 탈바꿈하고 있다.
박찬 기자 cpark@aitimes.com
