(사진=테크스폿)
(사진=테크스폿)

시각 초음파를 사용해 텍스트로 음악을 생성하는 인공지능(AI) 모델이 나왔다.

아르스테크니카는 세스 포스그렌과 하이크 마르티로스라는 개발자가 사운드의 시각적 표현을 생성하고 이를 오디오로 변환해 텍스트 프롬프트에서 음악을 생성하는 AI 모델 '리퓨전(Riffusion)'을 출시했다고 17일(현지시간) 보도했다.

'리퓨전'은 이미지 생성 AI '스테이블 디퓨전' 1.5 이미지 합성 모델의 미세조정 버전을 사용해 오디오를 2차원 이미지로 표현하는 표현하는 소노그램을 생성해 작동한다.

소노그램은 음원 신호의 시간 변화에 따른 주파수 성분 분석을 위한 그래프다.  시간 경과에 따라 서로 다른 주파수의 진폭을 보여주는 오디오의 시각적 표현으로 X축은 시간,  Y축은 소리의 주파수를 나타낸다. 

리퓨전을 개발한 포스그렌과 마르티로스는 초음파는 사진의 일종이라 스태이블 디퓨전으로 처리할 수 있다는 점을 활용했다. 이들은 여러 음악의 소노그램을 만들고 ‘블루스 기타’ ‘재즈 피아노’ ‘아프로비트’ 등 관련 용어로 결과 이미지에 태그를 지정한 훈련 데이터를 사용해 스태이블 디퓨전을 미세조정했다.

미세조정은 사전 훈련된 모델을 특정 종류의 콘텐츠를 사용해 추가적으로 훈련시켜 해당 콘텐츠를 전문적으로 생성할 수 있도록 한다. 이러한 미세조정의 결과로 리퓨전은 ‘재즈’, ‘록’ 또는 키보드 입력과 같이 듣고 싶은 음악이나 소리의 유형을 설명하는 텍스트 프롬프트를 기반으로 즉석에서 새로운 음악을 생성할 수 있다.

스펙트로그램은 2차원 이미지에서 시간, 주파수 및 진폭을 나타낸다.(사진=포스그렌 & 마르티로스)
스펙트로그램은 2차원 이미지에서 시간, 주파수 및 진폭을 나타낸다.(사진=포스그렌 & 마르티로스)

리퓨전은 소노그램을 토치오디오를 사용해 사운드 웨이브폼으로 변경하고 오디오로 재생한다. 또 시드를 변경해 프롬프트의 변형을 무한히 생성할 수 있다. 또 다양한 스타일의 음악을 융합할 수도 있다. 예를 들어, ‘부드러운 트로피컬 댄스 재즈’를 입력하면 다양한 장르의 요소를 가져와 스타일을 혼합한다.

음악 생성 AI '리퓨전' (영상=포스그렌 & 마르티로스)

물론 리퓨전이 최초의 AI 기반 음악 생성기는 아니다. 올해 초 하모나이는 AI 기반 생성 음악 모델인 덴스 리퓨전을 출시했다. 2020년에 발표된 오픈AI의 주크박스도 신경망으로 새로운 음악을 생성한다. 그리고 사운드로와 같은 웹사이트는 즉석에서 논스톱으로 음악을 만든다.

다른 AI 음악 작업과 비교할 때 리퓨전은 다소 단순한 것처럼 느껴진다. 리퓨전이 생성하는 음악은 흥미로운 것부터 이해할 수 없는 것까지 다양하지만 시각적 공간에서 오디오를 조작하는 확산(Diffusion) 기술을 사용했다는 점은 주목할만한 하다.

리퓨전 모델 체크포인트와 코드는 깃허브에서 사용할 수 있다.

박찬 위원 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지