전상배 가우디오랩 CSO가 AI 오디오 생성 기술에 대해 설명하고 있다. (사진=가우디오랩)
전상배 가우디오랩 CSO가 AI 오디오 생성 기술에 대해 설명하고 있다. (사진=가우디오랩)

인공지능(AI) 오디오 전문 가우디오랩(대표 오현오)은 올해 초 미국 라스베이거스에서 열린 CES 2024에서 '깜짝 스타'로 떠올랐다.

사티아 나델라 마이크로소프트 CEO가 부스를 방문, 소리 생성 AI '폴리(FALL-E)'에 관심을 보여 내외신으로부터 주목받았다. 이 솔루션은 이미지 프롬프트로 그에 맞는 효과음을 생성하는 기술이다. 

가우디오랩은 올해에도 CES 혁신상을 수상, 내년 1월에 열리는 CES 2025에 참여한다. 이번에는 어떤 기술을 선보일지 관심이 모이는 것은 당연하다.

전상배 가우디오랩 최고과학책임자(CSO)는 "지난 CES에서 주목받은 폴리가 소리를 생성하는 기술이었다면, 이번에 소개할 기술은 소리 분리와 생성을 결합한 한단계 발전한 기술"이라고 밝혔다. 

또 “잘 완성한다면 콘텐츠 시장에 혁신을 가져올 수 있는 기술”이라며 "AI 오디오 기술로 새로운 콘텐츠 시장을 개척할 수 있을 것"이라고 강조했다.

올해 수상작인 '가우디오 뮤직 플레이스먼트(Gaudio Music Placement)'는 이미지를 넘어 동영상을 프롬프트로 사용하는 기술이다. AI 엔진이 동영상에 맞는 배경음악을 추천하고 배치하는 것은 물론, 배경음악의 교체나 더빙, 자막, 효과음 선정, 소음 제거, 대사 분리 등 영상 제작 단계에서의 많은 문제를 해결해 준다.

현재는 그중 일부 기능을 탑재한 ‘가우디오 뮤직 리플레이스먼트(Gaudio Music Replacement)’를 상용화했다. 리플레이스먼트라는 말 그대로 영상 속 소리를 재조합하고 재정렬하는 솔루션으로, 이 분야에서는 현존 '끝판왕'이다.

전상배 CSO는 이 솔루션의 용도를 설명하기 위해 '1박2일'이나 '신서유기' 같은 리얼리티 여행 예능을 예로 들었다.

여행 예능은 한회차에 100곡 가까운 노래가 들어간다. 이런 프로그램이 해외에 수출되는 경우에는 복잡한 문제가 생긴다.

국내에서는 문제가 없는 노래라도, 다른 저작권법을 적용하는 해외에서는 문제가 되는 경우가 허다하다. 수출을 위해 배경음악을 교체해야 하는 경우가 발생하는데, 이는 생각보다 어려운 작업이다.

전 CSO는 “음악을 말소리와 깨끗하게 분리해 내는 것은 물론, 비슷한 음악으로 교체하고 리마스터링하는 작업을 일일이 거쳐야 한다”라며 “이 작업 때문에 수출이 지체될 정도”라고 말했다.

리플레이스먼트는 이 과정을 모두 AI로 자동화하는 기술이다. 당연히 방송사가 주 고객사다. 또 이를 통해 이전에는 엄두도 내지 못했던 콘텐츠를 수출하는 경우까지 만들었다고 전했다.

이런 수요는 국내에서만 생기는 것이 아니다. 해외 콘텐츠도 넷플릭스와 같은 OTT에 올리기 위해서 배경음악을 교체해야 하는 경우가 허다하다. 스포츠 방송도 생방송과 재방송의 음원이 다른 경우가 꽤 있다.

일반적으로 잘 알려지지 않은 분야일 뿐, 전 세계를 상대로 수요는 상당하다는 설명이다.  

또 CES 혁신상을 받은 뮤직 플레이스먼트는 이런 교체 작업을 처음부터 방지할 수 있는 솔루션이다. 제작 과정부터 저작권 문제를 배제한 음원을 지원해 주는 것이다. 이는 유튜브 크리에이터 시장에서 수요가 많을 것으로 예상했다. 

이처럼 이번 CES에서 선보일 솔루션은 이 회사가 보유한 세계 최고 수준의 음원 기술을 기반으로 한다.

전 CSO는 “오디오 생성 과정에서는 고려해야 할 부분이 상당히 많다”라며 "따라서 누구나 쉽게 따라올 수 있는 분야갸 아니다"라고 설명했다. 실제로 가우디오랩은 지난 2015년 설립됐다. 글로벌 음성 분야에서 주목받는 일레븐랩스보다 더 빨리 ‘멀티모달 기반 효과음 생성 기술’을 선보인 곳이다.

음성 기술은 데이터베이스가 적은 편이며, 대사와 BGM, 노이즈 등 종류도 각양각색이라는 점을 진입장벽으로 꼽았다. 소리 생성 AI를 만들기 위해서는 정교한 음원 분리기술이 필수라고 설명했다.

또 영화에서 사용하는 소리를 생성하는 것은 단순한 작업이 아니라고 설명했다. ‘세 사람이 사무실에서 인터뷰를 진행 중’이라는 장면에 소리를 집어넣으려면 대사는 물론, 키보드 타이핑 소리나 난방기 돌아가는 소리, 빔프로젝터 소리 등 여러 소리가 필요하다. 심지어 외부 잡음도 고려해야 한다. 이 중 하나라도 빠지면 영상은 부자연스러울 수밖에 없다.

연출에 따라서도 소리는 달라진다. 더 가까운 곳에서 나는 소리가 크게 들리는 것이 그 예다. 또 영화인지 드라마인지 영상의 장르에 따라 차이가 날 수밖에 없다고 전했다.

이 때문에 "진정한 비디오-오디오 기술을 완성하려면 AI가 영상의 ‘맥락’ 자체를 읽어내야 한다"라고 결론 내렸다.

가우디오랩의 최종 목표는 이처럼 영상을 입력하면 맥락을 읽어 완벽한 소리를 생성하는 기술을 구축하는 것이다. 그리고 그 목표에 근접하고 있다고 밝혔다. 실제로 2025년에 개봉하는 국내 영화 ‘괴기열차’에는 폴리 솔루션으로 생성한 효과음이 도입된다.

 

전상배 가우디오랩 CSO는 지난해 인터뷰에서 "5~10년 안에 가우디오랩의 사운드가 대부분의 영화에 들어가게 될 것"이라고 말한 것을 떠올렸다. 그리고 "현재 우리는 순탄하게 여정을 진행 중”이라고 말했다.

한편, 기술 고도화 과정에서 생각지도 못한 신규 비즈니스도 발견했다고 밝혔다. 노래방이 대표적이다. 

기존 노래방은 미디(MIDI) 음원을 사용하기 때문에 특유의 기계음 같은 소리를 지우지 못하는 한계가 있었다. 하지만 가우디오랩의 음원 기술은 대중가요 음원에서 피치, 템포, 보컬, MR 등을 깨끗이 분리해 특정 부분만 확대, 축소, 제거할 수 있도록 지원한다.

이 기술로 CES에서는 AI 기반 자동차 인포테인먼트 솔루션을 처음으로 공개한다. 사용자 취향대로 보컬, 드럼, 베이스 등 악기를 분리해 자동차 내 스피커로 분리 출력하거나, 보컬 제거 기능으로 노래방을 즐길 수 있는 기능이다.

전 CSO는 “가우디오랩은 비디오 하나만 입력해 효과음을 생성할 수 있는 ‘기술의 정점’을 향해 달려가고 있다”라며 "이제는 이 기술로 새로운 시장을 개척하는 단계에 접어들었다"라고 강조했다.

장세민 기자 semim99@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지