(사진=유튜브)
(사진=유튜브)

음악적 지식이 없는 사용자도 텍스트 입력 만으로 몇초 만에 연주와 보컬을 모두 포함하는 완전한 노래를 생성하는 인공지능(AI)이 나왔다. 혁신적인 기능과 뛰어난 품질로 인해 '음악판 소라(Sora)’라는 평가까지 나왔다.

음악 전문 롤링스톤즈는 17일(현지시간) 스타트업 수노 AI가 텍스트 프롬프트에서 음악을 생성하는 모델 ‘V3’ 알파 버전을 공개했다고 보도했다.

수노의 모델은 이미 지난해 12월 마이크로소프트(MS)의 '코파일럿'에 플러그인 형태로 제공, 화제가 된 바 있다. 특히 노래를 공개적으로 발표, 가수 데뷔가 가능해진 다는 점 때문이었다.

이번에는 퀄리티가 더욱 향상됐다. 수노 AI는 V3가 '챗GPT'와 같은 대형언어모델(LLM)과 동일한 접근 방식을 사용한다고 밝혔다. LLM은 인간의 언어를 토큰이라는 개별 세그먼트로 나누고 수백만개의 사용법, 스타일 및 구조를 학습, 다음 토큰을 예측하는 방식으로 재구성된다.

그러나 오디오, 특히 음악은 단어처럼 분리된 것이 아닌 연속된 신호이기 때문에 언어보다 더 복잡하다.

고품질 오디오의 샘플링 속도는 일반적으로 44킬로헤르츠(khz)나 48khz다. 이는 초당 4만8000개의 토큰을 의미한다. 이를 위해 V3는 샘플링 속도를 합리적인 수준으로 낮추고, 다음 오디오 토큰을 예측하는 모델을 기반으로 한다.

(영상=유튜브)

기능도 다양하다. 단순한 텍스트 입력만으로 음악을 들을 수 있을 뿐만 아니라, 선택한 언어로 노래를 불러줄 수도 있다.

또 노래에 필요한 내용을 지정해 텍스트를 통해 모든 세부 사항을 추가할 수 있다. 마음에 들지 않는 부분이 있으면 변경을 요청할 수 있다.

사용자는 ‘사용자 정의 모드’를 통해 자신만의 가사를 쓰고, 제목을 선택하고, 음악 스타일을 지정할 수 있다. 재생 화면에서 오디오 또는 비디오 형식으로 노래를 공유하거나 다운로드할 수 있으며, 생성된 데이터를 기반으로 요소를 수정하여 노래를 리믹스할 수도 있다.

V3는 수노 AI 웹사이트에서 일일 50크레딧로 하루 약 10곡이 포함된 무료 요금제와 상업용 프리미엄 요금제로 사용할 수 있다.

믹키 슐만 수노 AI 공동 창립자는 “수노는 누구나 훌륭한 음악을 만들 수 있는 미래를 만들어가고 있다"라며 "우리는 당신과 당신이 만들고 싶은 노래 사이의 장벽을 허물어 준다. 단지 상상만 하면 된다“라고 말했다.

롤링스톤스는"지금까지 대부분의 AI 생성 예술은 기껏해야 키치에 불과했다"라며 "그러나 V3는 뭔가 다른 것 같다. 지금까지 접한 모든 매체에서 가장 강력하고 (예술가를) 불안하게 만드는 AI 창작물"이라고 평했다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • 2023년 음악 생성 AI, 누가 혁명을 이끌었나
  • "누구나 팝송 만들어 발표 가능"...MS, '코파일럿'에 음악 생성 AI 탑재
  • 어도비도 '음악 생성' AI 공개..."빅 플레이어들과 경쟁할 것"