"AI 콘텐츠 제작 시대 본격 개막"

오픈AI '소라'가 생성한 동영상에 일레븐랩스가 AI 효과음을 추가하고, 이어 뉴튠이 AI로 BGM까지 생성한 결과물 (영상=뉴튠)

동영상 생성 인공지능(AI)이 만든 비디오에 AI로 음향 효과를 입히고, 여기에 배경음악까지 더한 'AI 완전체 콘텐츠'가 탄생했다.

AI 음악 기술 전문 뉴튠(대표 이종필)은 최근 오픈AI에서 공개한 '소라(Sora)' 영상에 AI 기반 음악생성 서비스 '믹스오디오'로 배경음악(BGM)을 추가, 해당 영상을 공개했다고 24일 밝혔다.

여기에는 AI 오디오 전문 일레븐랩스가 사운드 효과를 더한 버전에 추가로 BGM을 더해, 오디오가 더욱 풍성해졌다.

최근 콘텐츠 업계는 동영상 생성 모델 '소라'의 등장으로 들썩이고 있다. 기존 텍스트 기반 생성 AI에서 벗어나 이미지, 영상까지 정복해 '시각 콘텐츠의 완전체' 단계로 나아가고 있기 때문이다.

이에 사운드 생성 업계까지 영향을 받아 'AI가 창작한 영상에 AI가 창작한 소리'를 덧입히는 과정을 연이어 선보이고 있다. 첫 주자인 일레븐랩스는 지난 21일 텍스트 기반으로 효과음을 생성해 소라 영상에 덧붙였다.

이미지, 영상 기반 멀티모달 효과음 생성이 가능한 국내 기업 가우디오랩도 22일 참여했다. 별도 텍스트 작업을 거치지 않아 작업시간을 획기적으로 줄일 수 있는 게 장점이다.

이에 음악 전문 프로듀서 인력을 다수 보유한 뉴튠은 조금 다른 접근을 시도 했다. 지난해 9월 첫 공개한 뉴튠의 배경음악 생성 서비스 '믹스오디오'를 이용한 것이다.

특히 업데이트를 거쳐 멀티모달 기능까지 추, 기존 텍스트 프롬프트 기반에 이어 이미지 기반 음악 생성 기능을 선보이고 있다.

이번에도 각 영상의 주요 장면을 캡처, 해당 이미지를 믹스오디오에 입력해 배경음악을 생성했다는 설명이다.

입력된 이미지를 인식 후 텍스트로 전환, 그 텍스트를 바탕으로 어울리는 음악을 생성해 내는 원리다. 예를 들어 '3마리 강아지들이 눈밭 위를 뒹구는' 소라 영상의 한 장면을 이미지로 입력할 경우, AI는 ‘두마리 강아지는 눈밭 위에서 공을 가지고 놀고, 나머지 한 마리는 눈을 깨물고 있다(There are two dogs playing in the snow with a ball in their mouth and one dog is biting the snow)’라는 텍스트 해석본을 알고리즘 내에서 도출해 낸다.

'소라' 생성 영상 중 강아지들이 눈밭 위를 뒹구는 장면 (사진=오픈AI)
'소라' 생성 영상 중 강아지들이 눈밭 위를 뒹구는 장면 (사진=오픈AI)

더불어 음악 생성 과정에서 저작권 문제 해결 및 음악 퀄리티의 향상을 제고하기 위해 ‘블록 뮤직’ 작곡법을 이용한다.

샘플 기반 작곡법이라고 이해하면 쉽다. 하나의 배경음악에는 악기, 비트, 멜로디 등 여러 여소가 담겨 있는데, 이를 각각 개별적으로 녹음, 해당 음악 블록을 데이터셋화해 필요에 따라 조립하는 방식이다.

실제 믹스오디오 AI 엔진도 사용자 입력에 따라 적절한 음악을 조립해 내고 있다. 뉴튠 관계자는 "빠른 생성 속도와 퀄리티, 그리고 저작권 투명성을 모두 가져올 수 있다"라고 전했다.

이번 작업은 뉴튠 측에게도 재미있는 경험이었다고 밝혔다. 주요 장면 캡처 이미지를 입력해 대략 4~5회 생성을 반복하며 가장 영상에 적합한 음악을 선별해 나갔다.

결과물이 만족스럽지 않을 때는 장르, 무드 '프롬프트 칩(사용자가 선택할 수 있게 정리해 놓은 프롬프트 예시)'을 추가, 원하는 느낌에 가까운 음악을 만들어 나갔다.

한편 믹스오디오 서비스는 지난해 11월 오픈베타를 시작으로 현재까지 20만곡 이상을 생성, 올해 2월 업그레이드된 피쳐를 선보이며 유료화를 진행한 바 있다.

단일적인 BGM 생성은 물론 하나의 프롬프트로 마치 연속적인 음악 재생을 제공하는 AI 라디오 기능과 유명 아티스트의 아카펠라를 기반으로 무한히 리믹스할 수 있는 AI 리믹스 기능까지 선보였다.

뉴튠 측은 "완전히 AI의 결과물로 이루어진 영상이 저 정도의 퀄리티를 낼 수 있다는 사실이 놀라울 정도"라며 "앞으로도 관련 기술 고도화 및 프로젝트를 계속하겠다"라고 말했다.

장세민 기자 semim99@aitimes.com

키워드 관련기사
  • 동영상 생성 AI '소라', 제2의 챗GPT 될까
  • 가우디오랩 "일레븐랩스 도전에 자신...멀티모달 사운드 생성 AI로 앞서 나갈 것"
  • 빅테크 CEO를 음악으로 표현했다...알트먼은 '펑키'