인공지능(AI) 이미지 생성 모델 ‘스테이블 디퓨전’ 시리즈로 유명한 스태빌리티 AI가 기업용 오디오 시장을 겨냥한 모델을 출시했다.
스태빌리티 AI는 10일(현지시각) 기업용으로 설계된 최초의 오디오 생성 모델 ‘스테이블 오디오 2.5(Stable Audio 2.5)’를 공개했다. 스태빌리티 AI API는 물론, fal이나 레플리케이트(Replicate), 컴파이UI(ComfyUI) 등 파트너 플랫폼에서도 사용할 수 있다.
스태빌리티 AI는 2023년 '스테이블 오디오 1.0'을 선보인 뒤 2024년 '2.0' 버전을 출시했으며, 이번 2.5 버전은 단순 업데이트가 아닌 기업 사용에 초점을 맞춘 도약으로 평가된다.
기업에서 AI 오디오 활용은 광고나 매장 경험 등 브랜드와 참여도 향상에 핵심 요소로 꼽히지만, 현재 음성에 회사 아이덴티티를 활용하는 비율은 고작 6%에 불과하다고 지적했다.
스테이블 오디오 2.5는 음성 생성 과정을 기존 50단계에서 8단계로 줄이면서 동시에 출력 품질을 크게 개선하는 기술적 혁신을 적용했다. 이를 통해 기업 맞춤 오디오가 브랜드 기억률을 최대 8배 높일 수 있다는 설명이다.
자크 에반스 스태빌리티 AI 오디오 연구 책임자는 “2.5 버전은 단순한 2.0의 개선이 아니다"라며 "전문 품질의 오디오와 빠른 성능, 기업용 상업 사례와 창작 전문가의 반복적 작업 흐름에 맞춘 고급 제어 기능을 제공한다”라고 말했다.
기술 핵심은 ARC(Adversarial Relativistic-Contrastive) 후처리 기법이다. 에반스는 “ARC는 기존에 필요했던 교사 모델, 지식 증류, 분류기 없는 가이던스(classifier-free guidance) 없이, 모델이 적은 단계에서도 고품질 오디오를 생성하도록 직접 최적화한다”라고 설명했다.
효율성도 크게 개선됐다. 스테이블 오디오 2.0은 출력 하나를 생성하는 데 약 50단계가 필요했지만, 2.5는 8단계만으로 생성이 가능하다. 이를 통해 'H100' GPU 기준으로 3분 길이 트랙을 2초 만에 제작할 수 있으며, 기업은 몇분 안에 수십가지 변형을 반복 테스트할 수 있다.
이번 모델에는 '오디오 인페인팅(audio inpainting)' 기능이 추가됐다. 오디오를 입력하고 시작과 종료 지점을 선택하면, 모델이 문맥에 맞는 이어지는 오디오를 생성한다. 이 기능은 반복 수정이 필수적인 전문 제작 환경에 적합하다는 설명이다.
여기에 기업이 보유한 데이터셋으로 미세조정이 가능, 브랜드 고유의 오디오를 워크플로우에 통합할 수도 있다.
배포 옵션도 다양하다. API, 온프레미스, 웹 기반 애플리케이션 모두 지원하며, 상업적 안전성을 위해 완전 라이선스가 확보된 학습 데이터를 사용한다.
음악 제작 기능도 개선됐다. 에반스 책임자는 “스테이블 오디오 2.5는 반복이 적고 불필요한 잡음이 줄어든, 더 정교하고 완성도 높은 곡을 생성할 수 있다”라고 말했다.
AI 오디오 시장도 경쟁이 치열하다. 일레븐랩스와 오픈AI 등이 상업용 제품을 제공하고 있다. 스테이블 오디오 2.5는 이들의 기능을 모두 지원하며, 나아가 기업 특화 기능으로 차별화를 시도하고 있다.
박찬 기자 cpark@aitimes.com
