엔씨소프트(대표 김택진, 박병무)는 게임 음성제작 과정 전반에 활용할 수 있는 인공지능(AI) 모델 ‘제로샷 멀티버스 TTS’를 공개했다고 8일 밝혔다.
TTS(텍스트 음성 변환)는 자연어를 입력해 캐릭터 목소리 등 음성 콘텐츠를 제작하는 음성 합성 기술이다. NC가 공개한 멀티버스 TTS는 3초 분량의 프롬프트 음성만으로도 ▲다양한 발화 스타일 변환 ▲화자 음색 일치도가 높은 교차 언어 생성 ▲다국어 음성 제작이 가능하다.
NC는 이 기술을 게임 음성 제작 과정 전반에 활용할 계획이다. 제한된 음성 리소스를 활용해 고품질의 풍부한 AI 캐릭터 보이스 제작이 가능, 기존 음성 작업에 소요하던 시간과 비용을 크게 절감할 수 있다고 전했다.
단일 모델로 구동이 가능한 것도 특징이다. 여러 언어와 기능을 가진 TTS를 하나의 모델로 제공해 다국어 음성 콘텐츠를 제작할 수 있다. 최적화된 하나의 모델을 활용하는 만큼 경쟁 TTS 모델에 비해 상대적으로 적은 운용 비용이 강점이다.
멀티버스 TTS 관련 논문을 세계적 권위의 AI 기술 학회 ‘EMNLP‘에 게재하며 글로벌 기술력도 입증했다고 밝혔다.
한편, NC는 현재 글로벌 게임 출시를 위해 다국어 음성 AI 연구 개발을 진행하고 있다. 이번 기술을 시작으로 연내 100종의 게임 캐릭터 음성을 제작, NPC의 성격과 상황에 맞춰 음성을 제작하는 조절 기능을 지속 개발하는 것이 목표다.
장세민 기자 semim99@aitimes.com
관련기사
