두바이의 음성 인공지능(AI) 스타트업 캄AI가 140개 이상의 언어를 지원하는 음성 복제 모델을 출시했다. 목소리 뿐만 아니라 리듬, 감정, 억양을 모방하는 더 높은 수준의 현실감을 차별점으로 내세웠다.
벤처비트는 11일(현지시간) 스타트업 캄AI가 음성 복제 모델 ‘마스5(Mars5)’를 출시했다고 보도했다.
이에 따르면 마스5는 음성 AI 선두인 일레븐랩스가 지원하는 36개 언어보다 3배 많은 140개 이상의 언어를 지원한다. 단 몇 초의 입력만으로 음성 뿐만 아니라 리듬, 감정, 억양까지 복제한다. 영어 전용 버전은 깃허브에서 오픈 소스로 제공하며, 언어 지원이 확장된 버전은 유료 캄 스튜디오에서 사용할 수 있다.
일반적으로 음성 복제와 텍스트-음성 변환은 두 개의 별도 서비스다. 음성 복제는 주어진 음성 샘플에서 매개변수를 추출하여 음성 복제본을 생성하고, 텍스트-음성 변환은 해당 복제본을 사용하여 주어진 텍스트를 합성 음성으로 변환한다.
캄AI는 마스5를 통해 두가지 기능을 하나의 통합된 플랫폼으로 결합했다. 사용자가 해야 할 일은 몇초에서 1분 사이의 오디오 파일을 업로드하고 텍스트 콘텐츠를 제공하는 것뿐이다. 모델은 오디오 파일에 있는 화자의 목소리를 참고하여 원래의 목소리, 말하는 스타일, 감정, 발음, 의미를 포함한 관련 세부 사항을 캡처하고 이를 사용하여 제공된 텍스트를 음성으로 합성한다.
마스5가 다양한 감정 톤과 음높이를 포착할 수 있으며, 사람이 좌절하거나 명령하거나 차분하거나 심지어 활기찬 경우와 같은 모든 복잡한 음성 시나리오를 다룰 수 있다고 주장했다.
아크샤트 프라카시 캄AI CTO는 이러한 기능이 “스포츠 해설, 영화, 애니메이션과 같이 전통적으로 음성으로 변환하기 어려웠던 콘텐츠에 적합하다”고 말했다.
이를 위해 마스5는 약 7억5000만 매개변수의 미스트랄 변형 모델과 약 4억5000만 매개변수의 새로운 확산 모델을 결합해 초당 6000비트의 속도로 인코딩 토큰을 처리한다.
구체적인 벤치마크 결과는 아직 공개되지 않았지만, 이 마스5는 오픈 소스인 ‘메타보이스(Metavoice)’와 비공개인 일레븐랩스의 음성 합성 모델보다 대체로 더 나은 성능을 보인 것으로 나타났다. 경쟁 제품들도 명확하게 음성을 합성했지만, 마스5가 더 원래 목소리와 비슷하게 들렸다는 설명이다.
또 문맥 이해, 정확한 문법, 적절한 구어체를 갖춘 번역 모델 ‘볼리(Boli)’도 오픈 소스로 출시할 예정이다.
프라카시 CTO는 “볼리는 언어의 뉘앙스와 구어적 측면을 포착하는 데 있어서 구글 번역와 딥엘과 같은 전통적인 엔진을 능가하는 독자적인 번역 모델로, 특히 자원이 적거나 중간 정도인 언어에서 더 일관되고 자연스러운 번역 경험을 제공한다”라며 “피드백에 따르면 볼리의 번역은 챗GPT와 같은 최신 생성 모델을 포함한 주류 도구보다 뛰어나다”라고 말했다.
현재 마스5와 볼리는 캄AI의 플랫폼인 캄 스튜디오에서 140개 언어와 함께 작동한다. 또 이러한 기능을 기업, 중소기업 및 개발자에게 API로 제공하고 있다. 프라카시 CTO는 고객 수를 정확히 공유하지는 않았지만 “메이저 리그 사커, 테니스 오스트레일리아, 메이플 리프 스포츠 & 엔터테인먼트, 주요 영화 및 음악 스튜디오, 몇몇 정부 기관과 협력하고 있다”라고 밝혔다.
메이저 리그 사커의 경우, 캄 AI는 최초로 2시간 이상 연속으로 게임을 네개의 언어로 실시간으로 더빙하여 중단 없이 방영했다. 또 호주 오픈의 경기 후 기자회견을 여러 언어로 번역하고, 심리 스릴러 영화 ‘쓰리(Three)’를 아랍어에서 중국어로 번역했다.
박찬 기자 cpark@aitimes.com
