MS, 뉴럴 텍스트 음성 변환(Neural TTS) 기술 제한적 개방
챗봇‧언어학습‧오디오북 등 다양한 음성 기반 서비스 질 개선
다중 신경망 사용…기존 TTS 기술보다 자연스러운 음성 구현
AT&T‧워너 브라더스‧듀오링고 등 기업들 기술 활용 사례 ↑

(사진=AT&T 유튜브).
(사진=AT&T 유튜브).

애니메이션을 좋아하는 사람이라면 최애 캐릭터들과 실제로 즐겁게 대화를 나누는 모습을 상상해 본 적이 있을 것이다. 인공지능(AI)과 5G, 증강현실(AR) 그리고 커스텀 보이스 등 첨단기술 덕분에 실물 크기의 고해상도 캐릭터들이 만화 속 모습 그대로 나에게 다가와 말을 걸어오는 일이 이제 현실이 됐다.

마이크로소프트(MS)가 자사의 뉴럴 텍스트 음성 변환(Neural TTS) 인공지능(AI) 기술에 대한 접근을 제한적으로 개방했다고 3일(현지시간) IT 전문매체 엔가젯(Engadget)이 보도했다. TTS는 텍스트 문자 정보를 음성 정보로 바꿔주는 음성 합성 기술을 말한다.

MS는 개발자들에게 ‘커스텀 뉴럴 보이스(Custom Neural Voice)'라 불리는 자사의 TTS AI 기술에 대한 제한적 접근을 허용하겠다고 밝혔다. 이 기술은 ’스피치(Speech)‘라는 MS의 애저(Azure) AI 서비스의 일부다.

기업들은 음성 기반 스마트 어시스턴트‧디바이스, 챗봇, 온라인 학습, 오디오북‧뉴스 읽기 등의 서비스에 해당 기술을 사용할 수 있다. 단 접근 권한이 제한돼 있기 때문에 이용하기 전 MS에 접근 권한을 신청해 승인받아야 한다.

특히 이 기술은 기존 다른 TTS 서비스보다 텍스트를 더 자연스러운 음성으로 변환해준다는 게 MS 측의 설명이다. 커스텀 보이스는 소리‧음소 저장소를 이용해 보이스 폰트(voice font)를 만든다. '커스텀 뉴럴 보이스'의 경우 운율체계(prosody) 즉 각 음소의 톤과 지속시간, 발음이 정확한지를 확인하기 위해 다중 신경망을 활용한다.

덕분에 텍스트를 단순히 로봇처럼 딱딱하게 읽는 방식에서 벗어나 배우의 목소리를 정확하게 흉내‧구사, 실제 사람처럼 자연스럽고 감정이 담긴 목소리로 구현할 수 있게 된다.

(사진=AT&T 유튜브).
(사진=AT&T 유튜브).

이미 여러 기업이 해당 기술을 사용하고 있다. 최근 미국 ‘AT&T’와 ‘워너 브라더스(Warner Bros.)’는 MS의 기술을 활용해 애니메이션 캐릭터 ‘벅스 버니(Bugs Bunny)’의 대화형 버전을 선보여 큰 호응을 이끌어냈다. 미국 텍사스주 댈러스의 AT&T 체험 매장에 시스템을 설치해 사람들이 벅스 버니와 소통할 수 있는 공간을 마련한 것이다.

(사진=AT&T 유튜브).
(사진=AT&T 유튜브).
(사진=AT&T 유튜브).
(사진=AT&T 유튜브).

커스텀 뉴럴 보이스와 AR, 5G 등 첨단 기술로 무장한 벅스 버니는 실시간으로 고객들과 수다를 떨면서 매장 곳곳을 돌아다닌다. 벅스 버니의 목소리를 맡은 배우 에릭 바우사는 MS와 함께 2000개가 넘는 대사‧구절을 녹음해 보이스 폰트를 만들었다. 이를 통해 워너 브라더스와 MS의 협업으로 캐릭터의 성격과 억양‧어조를 담은 커스텀 보이스가 탄생했다.

이 밖에 언어 학습 플랫폼 ‘듀오링고(Duolingo)’는 커스텀 뉴럴 보이스를 이용해 새로운 언어 학습을 돕는 독특한 캐릭터를 개발했다. 미국 보험사 ‘프로그레시브(Progressive)’도 자사의 플로(Flo) 챗봇 서비스에 기술을 접목했다.

(영상=AT&T).

AI타임스 윤영주 기자 yyj0511@aitimes.com

[관련기사] MS, 기업용 혼합현실 기기 ‘홀로렌즈2’ 국내 출시

[관련기사] MS, ‘애저 디지털 트윈스’ 정식 버전 출시했다

키워드 관련기사
  • 구글 라이브 음성 인식 번역 서비스 성능 개선, 업데이트!
  • 아마존, 타 기업에 AI스피커 ‘알렉사’ 재설계 권한 부여
  • 지금은 대화형AI 컨택센터로 고객 만족도 높이는 시대