'트랜스포머'의 한계를 극복하기 위해 설계된 ‘맘바(Mamba)’ 아키텍처를 적용한 최초의 오픈 소스 음성 복제 모델이 등장했다.
더 레지스터는 16일(현지시간) 미국 AI 스타트업 지프라가 5초 길이의 샘플 오디오만으로 음성을 복제할 수 있는 텍스트-음성 변환(TTS) 모델 ‘제노스(Zenos)’를 오픈 소스로 출시했다고 보도했다.
제노스는 ▲16억개의 매개변수를 갖춘 트랜스포머 모델 ▲맘바 상태공간모델(SSM) 아키텍처와 트랜스포머를 결합한 하이브리드 모델 등 두가지 버전으로 제공된다.
하이브리드 모델은 맘바 SSM 기반 구조 덕분에 트랜스포머 모델에 비해 지연 시간이 짧고 메모리 사용량이 최적화된 것이 특징이다.
트랜스포머 모델은 데이터를 처리할 때 모든 정보를 ‘히든 스테이트(hidden state)’에 저장하는 방식으로 작동한다. 이는 모델이 문맥을 기억하는 데 유용하지만, 새로운 데이터를 처리할 때마다 전체 히든 스테이트를 다시 검색해야 하기 때문에 연산 부담이 크고 메모리 소모가 많아지는 단점이 있다.
맘바 SSM 아키텍처는 이 문제를 해결하기 위해 등장했다. 맘바는 이전 데이터 포인트를 요약하여 압축하고, 새로운 데이터가 들어오면 히든 스테이트를 업데이트하면서 불필요한 정보를 제거하는 방식으로 동작한다. 이를 통해 모델은 핵심 정보에 집중하면서도 긴 텍스트 시퀀스를 처리하는 능력을 갖춘다. 덕분에 하이브리드 모델은 트랜스포머 모델보다 약 20% 빠른 응답 속도를 보인다.
제노스는 약 20만시간 분량의 음성 데이터로 학습됐으며, 오디오북 내레이션부터 감정 표현이 풍부한 음성까지 다양한 스타일을 지원한다.
5~30초 길이의 샘플 오디오를 기반으로 44kHz 품질의 음성을 생성할 수 있으며, 영어, 일본어, 중국어, 프랑스어, 독일어 등 5개 언어를 지원한다. 또 말하는 속도, 피치, 오디오 품질, 감정적 톤 등을 조절할 수 있다.
제노스는 RTX 4090 GPU에서 로컬 실행이 가능하며, 평균 200~300밀리초의 지연 시간을 기록했다.
현재 허깅페이스에서 모델을 다운로드하여 사용할 수 있다.
한편, 지난해 12월 AI 스타트업 가르테시아는 맘바 SSM 기반 음성 복제 모델 ‘소닉(Sonic)’을 공개한 바 있다. 소닉은 90밀리초 이하의 지연 시간을 기록하며 가장 빠른 음성 생성 모델 중 하나로 평가받았다.
또 지난해 1월 캐나다 스타트업 마이쉘은 1초 만에 사용자의 목소리를 복제할 수 있는 오픈 소스 AI 음성 복제 모델 ‘오픈보이스(OpenVoice)’를 출시했다. 실시간 음성 합성에 적합한 성능을 갖춰 주목받고 있다.
박찬 기자 cpark@aitimes.com
