구글과 하모나이는 오디오 생성 AI를 공개했다.(사진=오픈AI)
구글과 하모나이는 오디오 생성 AI를 공개했다.(사진=오픈AI)

짧은 음성이나 음악을 들려주면 뒷부분을 자연스럽게 이어지도록 완성해주는 인공지능(AI)이 나왔다. 아직은 연구를 위한 목적으로 개발한 단계지만 향후 음악 작곡을 비롯해 다양한 분야에 활용할 수 있을 것으로 기대된다. 

최근 공개된 오디오 생성 AI는 구글이 지난 6일(현지시간) 블로그에 공개한 '오디오LM(AudioLM)'과 하모나이(Harmonai)라는 AI스타트업이 8일 오픈소스로 출시한 '댄스 디퓨전(Dance Diffusion)' 두 종류다.

구글이 개발한 '오디오LM'은 피아노 음악이나 사람의 목소리를 녹음한 오디오  프롬프트를 입력하면 원본과 구별할 수 없을 정도로 유사한 후반부 오디오를 생성해주는 AI 모델이다. 

또 하모나이의 '댄스 디퓨전'은 수백 시간의 기존 노래를 훈련해 음악 클립을 생성할 수 있는 알고리즘과 도구 세트다. 하모나이는 텍스트-이미지 생성 AI '스테이블 디퓨전'을 출시한 스테빌리티AI가 재정 지원을 하는 기업이다.

오디오LM은 제공한 몇 초간의 녹음으로 시작해 구문이나 의미적으로 자연스럽고 논리적인 음성이나 리듬, 화음 등 스타일을 유지한 음악을 생성한다. 

기존 AI 기술은 대부분 텍스트 기반 교육 데이터에 스크립트를 준비하고, 데이터에 레이블을 지정해야 하기 때문에 많은 시간과 인력이 필요하다. 반면 오디오LM은 스크립트나 라벨링을 필요로 하지 않는다. 대신 사운드 데이터베이스를 프로그램에 입력한 다음 기계 학습을 사용해 오디오 파일을 '토큰'이라고 하는 사운드 조각으로 압축한다. 이 토큰화된 훈련 데이터는 자연어 처리를 거쳐 소리의 패턴을 학습하는 기계 학습 모델에 입력된다.

오디오를 생성하기 위해 몇 초간의 사운드가 오디오LM에 입력되고 오디오LM은 다음에 올 내용을 예측한다. 이 프로세스는 GPT-3과 같은 언어 모델이 일반적으로 어떤 문장과 단어가 뒤따를지 예측하는 방식과 유사하다.

오디오LM이 생성한 오디오 클립은 꽤 자연스럽게 들린다. 특히 오디오LM을 사용해 생성한 피아노 음악은 기존 AI 기술을 사용해 생성한, 혼란스럽게 들리는 피아노 음악보다 더 부드럽게 들린다. 사실적인 피아노 음악을 생성하기 위해 오디오LM은 피아노 건반을 쳤을 때 각 음에 포함된 미묘한 진동을 포착해야 하고, 일정 기간 동안 리듬과 화음을 유지해야 한다.

오디오 생성 AI ‘오디오LM’이 생성한 음성과 음악 (영상=구글)

오디오LM은 사람이 말하는 문장을 녹음한 라이브러리에서 훈련하기 때문에 원래 화자의 억양으로 계속되는 음성을 생성할 수도 있다. 어떤 유형의 소리 조각이 함께 자주 발생하는지 학습하고, 그 과정을 역으로 사용해 문장을 생성한다. 또 웃음, 쉼표, 감탄사와 같은 구어에 내재되어 있지만 텍스트로 쉽게 번역되지 않는 특정한 의도나 감정을 표현하는 또 다른 의사 소통 방법을 배울 수 있다는 장점도 있다.

다만 이런 종류의 AI는 훈련에 사용하는 음악에 대한 저작권이나 귀속 및 로열티 문제에서 자유롭지 못하다. 이미 텍스트-이미지 생성 AI에서 발생한 문제다. 또 실제와 구별할 수 없는 AI 음성은 가짜 뉴스나 정보를 만드는데 악용될 소지도 다분하다.

구글은 "오디오LM은 연구 목적으로 작업하고 있다"며 "현재로서는 대중에 공개할 계획이 없다"고 밝혔다.

하모나이의 '댄스 디퓨전'은 스테이블 디퓨전의 확산 모델을 기반으로 개발한 AI 모델이다. 기존 데이터 샘플을 노이즈 데이터로 왜곡시킨 후 복구하는 방법으로 학습해 새로운 데이터를 생성하는 방식이다.

예를 들어 피아노 연주의 마에스트로 데이터 세트와 같은 훈련 데이터에서 훈련된 확산 모델은 노이즈를 가져와 훈련 데이터와 유사한 음악으로 변환할 수 있다. 

사용자는 댄스 디퓨전을 사용해 새 오디오를 생성하거나 사용자가 선택한 기존 오디오를 변형 또는 선택한 기존 오디오를 다른 스타일로 변환할 수 있다. 이 모델은 한 번에 1.5 초의 짧은 샘플에서만 학습되기 때문에 전체 노래가 아닌 짧은 음악 클립만 생성할 수 있다.

하모나이는 사진이나 오디오 클립 등의 데이터를 AI 모델 훈련에 사용하기 위해 정보 주체인 당사자에게 데이터 수집, 이용 및 제공에 대한 동의를 먼저 받는 옵트-인(opt-in) 방식을 통해 저작권 문제에 대처하고 있다. 

박찬 위원 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지