엔비디아의 '스피치 AI 서밋' 배너 이미지 (사진=엔비디아)
엔비디아의 '스피치 AI 서밋' 배너 이미지 (사진=엔비디아)

엔비디아가 구글, 메타와 함께 음성 인공지능(AI) 경쟁에 본격 합류했다.

엔비디아는 2일(현지시간) 온라인으로 진행한 '스피치 AI 서밋' 행사를 통해 음성인식 프로젝트 그룹인 '모질라'와 함께 새로 개발한 음성 AI 플랫폼을 공개했다.

개발자는 이 플랫폼에 포함된 데이터셋으로 음성 AI 모델을 훈련한 다음 이를 자동 음성인식 아키텍처로 제공할 수 있다. 그러면 다른 개발자들이 이 아키텍처를 채택하고 사용, 데이터셋에 포함된 언어의 종류를 늘려감과 동시에 AI 모델의 품질을 향상시킬 수 있다는 내용이다.

이는 구글이나 메타와는 조금 다른, 일종의 오픈소스 방식이다. 따라서 엔비디아는 이를 '새로운 음성 AI 생태계 구축 모델'이라고 발표했다.

캐롤라인 고틀립 엔비디아 제품 관리자는 "이 플랫폼을 통해 전 세계 사용자와 개발자가 파트너십을 구축, 이 커뮤니티가 모든 언어에 대한 음성 데이터셋과 모델을 구축하는 데 도움이 되는 생태계를 만드는 것이 목표”라고 밝혔다.

'커먼 보이스' 설명 이미지 (사진=모질라)
'커먼 보이스' 설명 이미지 (사진=모질라)

모질라의 '커먼 보이스' 플랫폼은 현재 100개 언어를 지원하며 전 세계 50만명의 목소리가 담긴 2만4000시간 분량의 음성 데이터를 제공한다. 일반인들도 짧은 음성 클립으로 문장을 녹음, 데이터셋을 기부할 수 있다.

이와는 별도로 엔비디아는 자체 음성 AI 모델을 개발하고 있다. 이미 공개한 '리바'는 미국의 T모바일과 다국적 기업 NCS 등에서 활용되고 있다. 리바는 음성인식은 물론 자동 번역, 택스트 음성 변환 등 기능을 갖추고 있으며, 가상 비서와 컨택 센터용 봇, 화상회의 변역, 디지털 아바타 등의 용도로 사용되고 있다.

엔비디아는 음성 AI 개발의 최종 목표를 메타버스에 활용하는 것이라고 밝혔다. 

시드하트 샤르마 엔비디아 AI 책임자는"현재 음성 번역은 속도가 느릴뿐더러 텍스트를 거쳐야 하는 단점이 있다"며 "향후 펼쳐질 메타버스에서는 사람들이 서로 다른 언어로 실시간 의사소통을 할 수 있게 하겠다"고 말했다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지