(사진=일레븐랩스)
(사진=일레븐랩스)

일레븐랩스가 자체 개발한 음성-텍스트 변환 모델 ‘스크라이브(Scribe)’를 공개했다. 이 모델은 뛰어난 다국어 음성 인식 정확도를 제공하는 것이 가장 큰 특징으로, 업계 최고 수준의 성능을 갖춘 것으로 평가된다.

일레븐랩스는 26일(현지시간) 99개 이상의 언어에서 최고 수준의 정확도를 제공하는 새로운 음성-텍스트 변환 모델 ‘스크라이브 v1(Scribe v1)’을 출시했다. 

스크라이브 v1은 단순한 필사 기능을 넘어, 스마트 화자 분리 기능을 지원해 발화자를 식별할 수 있다. 하나의 오디오 파일에서 최대 32명의 서로 다른 화자를 인식할 수 있어 회의 기록이나 방송 콘텐츠 제작에도 유용할 것으로 기대된다. 또한 단어 단위의 타임스탬프를 제공해 정밀한 자막 제작이 가능하며, 청중의 웃음과 같은 비음성 이벤트를 자동으로 태그하는 기능도 포함되어 있다. 

일레븐랩스의 벤치마크에 따르면, 스크라이브 v1은 음성을 텍스트로 변환하는 정확도 면에서 구글의 ‘제미나이 2.0 플래시(Gemini 2.0 Flash)’, 오픈AI의 ‘위스퍼 v3(Whisper v3)’, 딥그램의 ‘노바-3(Nova-3)’를 능가했다. 특히 영어(96.7%)와 이탈리아어(98.7%)를 포함한 99개 언어에서 역대 최저 단어 오류율(WER)을 기록했다. 기존 AI 음성 인식 모델들이 높은 오류율을 보였던 세르비아어, 광둥어, 말라얄람어 같은 언어에서도 성능이 대폭 개선되었다.

개발자들은 스크라이브의 음성-텍스트 API를 통해 화자 구분, 단어 수준 타임스탬프, 비음성 이벤트 마커)를 포함한 구조화된 JSON 트랜스크립트를 바로 활용할 수 있다. 실시간 애플리케이션을 위한 저지연 버전도 곧 출시될 예정이다. 가격은 입력 오디오 1시간당 0.40달러로 책정됐으며, 출시 후 6주 동안 50% 할인된 가격으로 제공된다.

콘텐츠 제작자와 기업 고객은 일레븐랩스의 대시보드를 통해 직접 스크라이브를 사용하여 오디오 또는 비디오 파일을 업로드하고 포맷된 트랜스크립트를 생성할 수 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지