가우디오랩 "일레븐랩스 도전에 자신...멀티모달 사운드 생성 AI로 앞서 나갈 것" < AI 기업 < AI산업 < 기사본문

일레븐랩스가 텍스트 프롬프트로 사운드를 완성한 '소라'의 동영상 (출처=유튜브, ElevenLabs 채널 'Sound Effects are Coming Soon to ElevenLabs')

가우디오랩이 소라 비디오를 프롬프트로 입력해 사운드를 생성한 예 (출처=유튜브, GAUDIO 채널 '[FALL-E] No More Silent Videos: Adding Sound to Open AI's Sora-generated Videos')

인공지능(AI) 오디오 기술이 빠르게 발전하고 있다. 텍스트를 소리로 바꿔주는 단계에서 시작, 텍스트로 음악을 만드는 데 이어, 이제는 텍스트로 효과음까지 만들어 내고 있다.

음성 생성 AI의 글로벌 선두인 일레븐랩스가 이 분야에 뛰어들었다. 하지만 효과음 생성의 강자인 국내 스타트업 가우디오랩(대표 오현오)은 텍스트 입력을 넘어, 멀티모달 프롬프트 단계까지 도달했다며 자신을 보였다.

21일 벤처비트에 따르면 일레븐랩스는 텍스트 기반 소리 생성 AI 모델을 새롭게 선보였다.

일레븐랩스는 X(트위터)에 오픈AI의 동영상 생성 AI '소라'가 만들어낸 비디오를 업로드하며, 자신들의 기술로 만들어낸 효과음을 덧입혔다. 자동차 달리는 소리와 지하철 소리, 거리를 걷는 여자의 구둣발 소리 등 효과음이다.

물론 영상을 바로 프롬프트에 입력한 결과는 아니다. 영상에 어울리는 소리를 상상해 이를 텍스트로 표현, 프롬프트로 입력한 뒤 얻어낸 결과물이다.

이번 모델에 대한 원리나 응용 및 기반 모델, 사용 데이터 등에 대해서는 알려진 바는 없다. 하지만 기존 텍스트-오디오를 넘어, 텍스트-사운드로 발전했다는 것을 보여주는 예다.

일레븐랩스는 음성 생성 AI의 간판으로 자리 잡은 미국 스타트업이다. 2022년 설립, 최근에는 1000억원 규모의 투자 유치에 성공했으며, 기업가치는 약 1조5000억원을 넘어섰다. 특히 얼마 전 조 바이든 미국 대통령의 음성 복제에 이 회사의 솔루션이 활용된 것으로 알려지며 화제가 됐다.

사운드 생성은 음성이나 음악보다 활용도가 제한적이고 다양한 데이터 학습이 필요한 탓에 관심이 덜했다. 하지만 영상 제작 분야에서는 상당한 기대를 모았다. 영화 제작 중 사운드 제작에 소비되는 시간이 엄청나기 때문이다.

하지만 가우디오랩은 일레븐랩스가 회사를 설립하던 시절부터 이미 사운드 생성 AI를 개발 중이었다고 밝혔다.

가우드오랩 '폴리' (출처=유튜브, Gaudio 채널 '[FALL-E] AI Sound Generator : Add Sound to Your World')

실제로 지난해 6월 미국 전기전자공학회(IEEE)가 주최하는 세계적인 음향 관련 행사 '디케이스'에서는 세계 최초로 열린 AI 사운드 생성 챌린지의 폴리 사운드 합성 분야에 주관사로 참여할 정도로 기술력과 영향력을 갖췄다.

이런 까닭에 지난 1월 'CES 2024' 현장에서는 이미지-오디오 생성 모델 '폴리(FALL-E)'로 사티아 나델라 마이크로소프트 CEO의 주목을 받으며 화제가 됐다.

더욱이 가우디오랩은 음성 복제나 텍스트 기반의 음성 및 효과음 생성을 넘어, 이미지를 입력해 효과음을 생성하는 단계까지 도달했다. 다음 목표는 영상 입력으로 오디오를 생성하는 방식이다. 즉 일레븐랩스가 일일이 텍스트 프롬프트로 완성한 소라 영상의 음향 생성을, 영상 업로드만으로도 간단하게 처리할 수 있다.,

가우디오랩 측은 "우리는 세계 최고 수준의 밀도를 갖춘 음향공학 분야의 인재가 포진해 있는 만큼, 올해는 더 나아간 버전의 AI 생성 오디오를 들려드릴 수 있을 것 같다"라고 밝혔다.

스페인 바르셀로나에서 열리는 'MWC 2024'에서는 실시간 소음 제거 및 분리가 가능한 애플리케이션 '저스트 보이스 라이트(Just Voice Lite)'를 선보일 예정이기도 하다.

장세민 기자 semim99@aitimes.com