10초짜리 음성 샘플로 단 1분 만에 음성 복제가 가능한 인공지능(AI) 기술이 등장했다. 최근 음성 복제 붐이 일며, 기업들의 음성 복제 AI 경쟁도 치열해지는 양상이다.
벤처비트는 3일(현지시간) 리셈블 AI가 음성 복제 플랫폼에서 생성 속도를 높이는 ‘래피드 보이스 클로닝(Rapid Voice Cloning)’을 출시했다고 보도했다.
이에 따르면 리셈블 AI의 웹 플랫폼에서 사용자는 오디오 샘플을 업로드하거나 자신의 음성을 녹음해 디지털 복제본을 만들 수 있다.
리셈블 AI의 기존 플랫폼을 사용할 경우 사용자는 음성 복제를 위해 약 25개의 문장을 녹음하거나 최소 3분의 음성 콘텐츠를 업로드해야 했으며, 복제본을 생성하는 데 1시간 정도가 소요됐다.
반면 래피드 보이스 클로닝를 사용하면 10~60초 사이의 오디오 샘플에서 약 1분 만에 음성을 복제할 수 있다.
리셈블 AI는 “다른 최첨단 모델은 종종 다양한 악센트의 뉘앙스와 미묘함을 재현하는 데 어려움을 겪지만, 리셈블 AI의 고급 기계 학습 알고리즘은 이 분야에 탁월하다”라며 “단 10초짜 음성 샘플을 분석하고 학습해 화자의 억양, 발음 및 억양을 충실하게 모방하는 AI 생성 음성을 만들 수 있다”라고 강조했다.
실제 마이크로소프트(MS)의 '발리(VALL-E)' 및 'XTTS-v2' 음성 복제 모델과의 비교 테스트에서 인상적인 결과를 얻었다.
그러나 무료 계정을 이용한 래피드 보이스 클로닝 테스트에서는 실망스러운 결과도 나왔다. 최소 3개의 긴 문장을 녹음하도록 요구했으며, 10초의 짧은 샘플을 녹음할 수 있는 선택 사항도 없었다.
또 처리는 신속했지만, 인도 사람의 억양을 인식하지 못했고 미국 영어 음성 샘플로만 입력을 받았다. 이는 출력 음성의 억양에 영향을 미쳤다.
이 서비스는 월 29달러(약 3만9000원)부터 시작된다.
리셈블 AI는 기존 음성 복제 기능은 ‘프로페셔널 보이스 클로닝’이라는 이름으로 계속 제공할 예정이라고 밝혔다. 기존 음성 복제 기능은 입력 요구 사항이 많고 시간이 걸리지만, 텍스트-음성 변환 및 음성-음성 변환을 지원한다. 반면 래피드 보이스 클로닝은 텍스트-음성 변환만 가능하다.
한편 최근 들어 음성 복제 생성 AI도 경쟁이 심화되는 분위기다.
오픈AI는 최근 15초 분량의 음성 샘플을 입력하면 원래 목소리와 매우 유사한 자연스러운 음성을 생성해 주는 음성 복제 AI 모델 ‘보이스 엔진’을 공개했다. 하지만 안전을 이유로 일부 제한된 테스터들만 접근할 수 있다.
앞서 1월에 일레븐랩스가 최소 1분 분량의 음성 샘플에서 29개 국어로 음성 복제 생성을 제공하는 ‘인스턴트 보이스 클로닝(Instant Voice Cloning)’ 플랫폼을 공개했다. 캐나다 AI 스타트업 마이쉘은 1초 만에 사용자의 목소리를 완벽하게 복제할 수 있는 오픈 소스 AI 음성 복제 모델인 '오픈보이스(OpenVoice)'를 출시했다.
박찬 기자 cpark@aitimes.com
