푸가토 (영상=엔비디아)
엔비디아는 음악과 오디오를 생성하고 목소리를 수정하며 새로운 소리를 만들어낼 수 있는 인공지능(AI) 모델을 선보였다. 기존에 여러 회사가 분산적으로 출시했던 기능을 모두 모아놓은 가장 유연한 모델이라고 강조했다.
엔비디아는 25일(현지시간) 텍스트 기반으로 다양한 음악과 효과음을 생성할 수 있는 새로운 AI 모델 ‘푸가토(Fugatto)’를 공개했다.
푸가토는 25억개의 매개변수를 갖췄으며, 엔비디아 'H100' 텐서 코어 GPU 32개가 장착된 DGX 시스템에서 오픈 소스 데이터를 학습했다.
엔비디아는 푸가토가 사용자가 묘사하는 거의 모든 것을 생성할 수 있다고 설명했다.
우선 텍스트 입력만으로 짧은 음악을 만들고, 기존 곡에서 악기를 편집하며, 음성의 억양과 감정을 조절할 수 있다.
또 트럼펫으로 강아지 짖는 소리나 색소폰으로 고양이 울음소리를 구현하는 등 기존에 없던 새로운 소리도 만들어낼 수 있다.
'수노'나 '유디오'처럼 텍스트 설명만으로도 음악을 작곡하거나 기존 음악에 새로운 악기나 효과음을 추가하는 등 다양한 작업도 할 수 있다. 예를 들어, “신나는 80년대 스타일의 팝 음악”이라는 문장만으로 노래를 생성할 수 있으며, 기존 음악에 새로운 악기나 효과음을 추가하거나 음성의 억양과 감정을 조정하는 등의 작업도 가능하다.
이는 기존에 등장했던 음악 및 사운드 모델의 기능을 한곳에 모두 합쳐 놓은 것과 같다.
여기에 엔비디아는 푸가토가 기존의 텍스트-음악 생성 도구들과는 차별화되는 기술을 갖췄다고 설명했다.
우선, 독립적으로 훈련된 명령을 결합할 수 있으며, 이를 통해 생성된 음악의 억양이나 감정 깊이를 세밀하게 조정할 수 있다. 예를 들어 ‘프랑스 억양의 슬픈 감정으로 말하는 음성’처럼 두가지 이상이 섞인 복합적인 명령을 처리할 수 있다.
또 시간에 따른 변화를 반영할 수 있다. ‘천둥이 치는 폭풍이 멈추고 점차 새소리가 들리는 새벽’과 같은 프롬프트가 작동한다.
마지막으로, 훈련 데이터에 없는 완전히 새로운 소리도 창작할 수 있다. ‘컴포저블ART(ComposableART)’ 기술을 활용해 훈련 데이터의 다양한 특성을 결합, 이전에 들어본 적이 없는 전혀 새로운 소리를 만들어낼 수 있다.
엔비디아는 이 모델을 "사운드를 위한 스위스 아미 나이프"라고 소개했다. 한마디로 만능 도구라는 것이다. 또 음악 작곡부터 광고 제작, 게임 개발, 교육 콘텐츠 생성 등의 분야에서 유용하게 사용될 것으로 기대했다.
다만, 푸가토의 출시 일정에 대해서는 구체적인 계획을 공개하지 않았다.
박찬 기자 cpark@aitimes.com
