일레븐랩스가 TTS(텍스트 음성 변환) 모델 ‘일레븐 v3(알파)’를 출시했다고 9일 밝혔다.

새로운 아키텍처 기반의 일레븐 v3는 텍스트를 읽어 주는 수준을 넘어, 실제 배우처럼 ‘연기’해낼 수 있다는 설명이다. 등장 인물을 바꾸거나 문장 중간에 톤을 전환하는 것은 물론, 속삭임이나 웃음소리, 숨 소리, 박수 등 지시에도 자연스러운 구현이 가능하다고 설명했다.

물론, 기존 모델보다 더 세부적인 지시가 필요하다고 덧붙였다. 하지만 그만큼 뛰어난 성능을 끌어낼 수 있다고 강조했다. 지원 언어도 기존 32개에서 70개 이상으로 확장됐다. 앞으로도 업데이트를 통해 사용성을 향상할 예정이다.

콘텐츠 창작자와 개발자 및 기업들이 오디오북, 캐릭터 대화, 인터랙티브 미디어 제작 등 표현력이 중요한 콘텐츠를 만들 때 효과적일라고 전했다. 정교한 음성 표현 조정이 가능하기 때문이다. 한국어 TTS도 크게 발전해 정교한 감정 표현은 물론 ‘사투리’ ‘축구 중계 스타일’과 같은 특별한 요청도 자연스럽게 표현할 수 있다고 전했다.

하지만, 실시간 대화형 AI 등 낮은 지연시간이 중요한 경우에는 기존 2.5 모델 사용을 권장한다고 덧붙였다. 

한편, 일레븐 v3는 데모 사이트도 오픈했다. 콜센터 및 실시간 대화형 에이전트에도 곧 지원할 예정이며, API도 마찬가지다. 얼리 액세스를 원한다면 영업팀에 문의가 가능하다. 

마티 스타니스제프스키 일레븐랩스 공동창업자 겸 CEO는 “감정과 표현, 비언어적 지시까지 이해하고 제어할 수 있는 가장 표현력이 뛰어난 TTS 모델”이라며 “오디오 태그를 통해 속삭임, 웃음, 억양 변경, 노래 지시까지 가능하다”라고 말했다.

장세민 기자 semim99@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지