엔비디아가 음
엔비디아가 음성 언어 처리 학회 '인터스피치 2021'에서 최신 대화형 AI 모델을 공개한다고 밝혔다. (사진=엔비디아)

엔비디아가 8월 30일부터 9월 3일(현지시간)까지 열리는 음성 언어 처리 학회 '인터스피치 2021(INTERSPEECH 2021)'에서 최신 대화형 인공지능(AI) 모델을 공개한다고 1일 밝혔다.

이번 학회에서 엔비디아 공개하는 대화형 AI 모델은 표현적 음성 합성(Expressive speech synthesis)을 위한 기술이다. 각 모델들은 은행과 소매업계의 음성 자동화 고객 서비스 라인을 지원하고 디지털 아바타용 실시간 음성 합성을 지원한다. 

표현적 음성 합성은 엔비디아 연구진이 대화형 AI 분야에서 진행 중인 연구의 일부다. 대화형 AI는 음성 합성 외에도 자연어 처리, 자동 음성 인식, 키워드 검출, 오디오 개선 등이 있다.

◆ 비디오 시리즈 '아이엠 AI'에 음성 합성 기술 'RAD-TTS' 사용

엔비디아 측은 자사 연구진들이 '아이엠 AI(I AM AI)' 제작에 음성 합성 기술을 사용하고 있다고 밝혔다. 아이엠 AI는 산업 혁신 사례를 소개하는 비디오 시리즈다.

얼마 전까지만 해도 해당 영상의 내레이션은 사람이 직접 담당했다. 기존 음성 합성 모델의 경우 합성된 음성의 속도와 음정 제어에 한계가 존재했다. 그 결과, AI를 활용한 내레이션은 인간 화자만큼 시청자의 정서적 반응을 강하게 이끌어내지 못했다.

이 문제는 엔비디아의 텍스트-투-스피치(text-to-speech) 연구진이 'RAD-TTS' 음성합성 모델을 개발하면서 변화했다는 게 회사 측 설명이다.

RAD-TTS는 시그라프(SIGGRAPH) 2021의 실시간 라이브 쇼케이스에서 우승한 엔비디아의 데모에서도 소개된 바 있다. 해당 모델은 텍스트-투-스피치 모델을 개인의 음성으로 훈련시켜 텍스트 일체를 해당 화자의 목소리로 즉시 변환할 수 있다.

RAD-TTS의 또 다른 음성 변환 기능은 화자의 말 뿐만 아니라 노래까지 다른 화자의 목소리로 전달한다. 인간의 목소리가 곧 악기라는 아이디어에 영감을 얻은 RAD-TTS 인터페이스는 합성된 목소리의 음정과 길이, 분위기 전반을 프레임 단위로 세밀히 제어하도록 돕는다.

아이엠 AI의 프로듀서는 RAD-TTS 인터페이스를 사용해 대본 내용을 직접 녹음한 다음, 자신의 음성을 여성 내레이터의 목소리로 변환했다. 이 기본 내레이션을 바탕으로 AI의 음성이 성우의 육성처럼 들리게 연출했다. 

◆ 음성 모델 개발에 유용한 파이썬 툴킷 공개

엔비디아는 이번 학회에서 음성 모델 개발에 유용한 'NeMo'도 공개한다고 밝혔다. NeMo는 그래픽처리장치(GPU) 가속 대화형 AI를 위한 오픈소스 파이썬(Python) 툴킷이다. 연구자와 개발자, 크리에이터의 애플리케이션에 적합한 음성 모델의 신속한 실험과 미세 조정에 기여한다.

NeMo의 간편한 API와 사전 훈련된 모델들은 문자 음성 변환과 자연어 처리, 실시간 자동 음성 인식용 모델의 개발과 커스터마이징을 지원한다. 일부 모델은 엔비디아 DGX 시스템에서 수만 시간 분량의 오디오 데이터로 훈련된다. 

개발자들은 자신의 활용 사례에 맞춰 모델 일체를 미세 조정할 수 있다. 이때 엔비디아 텐서 코어(Tensor Core) GPU에서 혼합 정밀도 컴퓨팅을 사용해 훈련 속도를 높인다.

엔비디아 NeMo는 모질라 커먼 보이스(Mozilla Common Voice)로 훈련한 모델을 NGC 카탈로그를 통해 제공한다. 모질라 커먼 보이스는 76개 언어와 1만 4000시간 분량의 음성 데이터를 크라우드 소싱 방식으로 수집한 데이터 세트다. 

엔비디아 관계자는 "해당 프로젝트에 대한 지원을 통해 세계 최대의 공개 데이터 음성 데이터 세트를 구축하고 음성 기술을 대중화하겠다"고 밝혔다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사] 엔비디아, 일상적인 추천시스템에 GPU 시대 연다... 특화된 '멀린 프레임워크' 내놔

[관련기사] 엔비디아, AI 워크로드 가상화 지원하는 '엔비디아 AI 엔터프라이즈' 발표

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지