일레븐랩스, ‘감정 표현’ 가능한 TTS 모델 ‘일레븐 v3 알파’ 발표

장세민 기자
입력 2025.06.09 15:07
댓글 0

이 기사를 공유합니다

일레븐랩스가 TTS(텍스트 음성 변환) 모델 ‘일레븐 v3(알파)’를 출시했다고 9일 밝혔다.

새로운 아키텍처 기반의 일레븐 v3는 텍스트를 읽어 주는 수준을 넘어, 실제 배우처럼 ‘연기’해낼 수 있다는 설명이다. 등장 인물을 바꾸거나 문장 중간에 톤을 전환하는 것은 물론, 속삭임이나 웃음소리, 숨 소리, 박수 등 지시에도 자연스러운 구현이 가능하다고 설명했다.

물론, 기존 모델보다 더 세부적인 지시가 필요하다고 덧붙였다. 하지만 그만큼 뛰어난 성능을 끌어낼 수 있다고 강조했다. 지원 언어도 기존 32개에서 70개 이상으로 확장됐다. 앞으로도 업데이트를 통해 사용성을 향상할 예정이다.

콘텐츠 창작자와 개발자 및 기업들이 오디오북, 캐릭터 대화, 인터랙티브 미디어 제작 등 표현력이 중요한 콘텐츠를 만들 때 효과적일라고 전했다. 정교한 음성 표현 조정이 가능하기 때문이다. 한국어 TTS도 크게 발전해 정교한 감정 표현은 물론 ‘사투리’ ‘축구 중계 스타일’과 같은 특별한 요청도 자연스럽게 표현할 수 있다고 전했다.

하지만, 실시간 대화형 AI 등 낮은 지연시간이 중요한 경우에는 기존 2.5 모델 사용을 권장한다고 덧붙였다.

한편, 일레븐 v3는 데모 사이트도 오픈했다. 콜센터 및 실시간 대화형 에이전트에도 곧 지원할 예정이며, API도 마찬가지다. 얼리 액세스를 원한다면 영업팀에 문의가 가능하다.

마티 스타니스제프스키 일레븐랩스 공동창업자 겸 CEO는 “감정과 표현, 비언어적 지시까지 이해하고 제어할 수 있는 가장 표현력이 뛰어난 TTS 모델”이라며 “오디오 태그를 통해 속삭임, 웃음, 억양 변경, 노래 지시까지 가능하다”라고 말했다.

장세민 기자 semim99@aitimes.com