(영상=스태빌리티 AI)

스태빌리티 AI가 음악 생성 인공지능(AI) 모델 '스테이블 오디오'의 성능을 대폭 강화했다. 생성 음악의 길이를 늘이고 다양한 기능을 추가하는 등 최근 돌풍을 일으키는 수노AI의 'V3'에 대응하려는 의도가 엿보인다. 

벤처비트는 3일(현지시간) 오디오 생성 AI 스테이블 오디오(Stable Audio)의 업그레이드 버전인 '스테이블 오디오 2.0’가 출시됐다고 보도했다.

스태빌리티 AI는 지난해 9월 ‘스테이블 오디오 1.0’을 선보였다. 이를 통하면  최대 90초 길이의 오디오 파일을 생성할 수 있다.

하지만 이날 출시된 2.0 모델은 최대 3분짜리 오디오 트랙을 생성할 수 있으며, 많은 기능이 추가됐다.

우선 텍스트는 물론 기존 사운드 클립을 프롬프트할 수 있는 것이 눈에 띈다. 여기에 텍스트로 업로드한 샘플을 새로운 사운드 형식으로 변환할 수 있다. 지속적인 수정도 가능하다.

또 실제 팝송처럼 도입부와 전개, 엔딩 부분 구조를 이루며, 연주와 보컬을 모두 포함하는 완전한 음악 트랙을 생성할 수 있다.

이 외에도 전 세대 모델이 지원하지 못했던 음향 효과도 생성할 수 있게 됐다.

(영상=스태빌리티 AI)

이런 성능 향상은 기본 AI 아키텍처에 대한 대대적인 업그레이드의 결과다.

이전 버전과 마찬가지로 '확산 모델'을 기반으로 한다. 확산 모델은 미디어 파일 생성에 널리 사용되는 신경망이다.

하지만 스테이블 오디오 2.0은 '잠재 확산 모델(LDM)'로 알려진 기술을 사용한다. 다른 신경망과 마찬가지로 이러한 모델은 배포단계에서 처리할 파일과 유사한 데이터셋으로 훈련한다. 그러나 훈련이 시작되기 전에 데이터셋은 AI 개발 프로세스를 효율적으로 만드는 '잠재 공간'이라는 수학적 구조로 변환된다.

잠재 공간에는 기반이 되는 데이터셋의 가장 중요한 세부 정보만 포함된다. 관련성이 낮은 세부 정보가 제거, 훈련 중에 AI 모델이 처리해야 하는 총 정보량이 줄어든다. 이런 데이터 양의 감소는 AI 훈련에 필요한 하드웨어의 양을 줄여 결과적으로 비용을 절감한다.

스태빌리티 AI는 “일관성 있는 생성을 위해 덜 중요한 세부 사항을 필터링하며 필수 기능을 캡처하고 재현한다”라고 설명했다.

트랜스포머 아키텍처를 기반으로 하는 새로운 신경망도 추가했다. 2017년 구글에서 개발한 트랜스포머 아키텍처는 주로 언어 모델을 구축하는 데 사용된다. 데이터를 해석할 때 많은 양의 문맥 정보를 고려할 수 있기 때문에, 이전 신경망보다 정확한 결과를 생성할 수 있다.

스태빌리티 AI는 “이 두 요소의 결합으로 고품질 음악 작곡에 필수적인 대규모 구조를 인식하고 재현할 수 있는 모델이 탄생했다”라고 강조했다. 

이 모델은 웹사이트를 통해 공개됐다. 조만간 개발자를 위한 API도 내놓을 예정이다. 이를 통해 기업들은 스테이블 오디오 2.0을 자사 애플리케이션에 통합할 수 있다. 

스테이블 오디오 2.0은 상업용 비공개 모델이며, 올해 후반에 오픈 소스 오디오 모델도 출시 예정이다.

한편 수노의 V3는 뛰어난 생성 음악 퀄리티 이외에도 다양한 사용자 정의와 손쉬운 수정 및 편집 기능 등이 장점으로 꼽히고 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지