중국어, 광둥어, 영어로 인터넷에서 수집한 수만곡의 노래 표준화

(사진=셔터스톡)

가수의 목소리를 학습해 흉내 내는 인공지능(AI) 가수가 등장했다. 

중국 저장성대학교 연구팀과 마이크로소프트(MS) 연구팀은 중국어와 영어 노래에서 음성을 추출해 AI 기술로 합성하는 '딥싱어' 시스템을 개발했다고 벤처비트는 13일(현지시간) 보도했다.

합동 연구팀은 음원 사이트에서 여러 언어의 인기 음원 데이터를 수집했다. 이후 음성 분리 도구 '스플리터'로 음원에서 음성을 추출하고, 이를 문장으로 변환했다. 또 가사에서 각 음소의 재생 시간을 추출했다. 모델이 만들어 낸 신뢰도 점수에 따라 가사와 노래 음성을 분리하고 나머지 불완전한 학습 데이터를 처리했다.

연구 테스트에서 딥싱어는 중국어, 광둥어, 영어로 인터넷에서 수집한 수만곡의 노래 길이와 음량을 기준으로 표준화했다. 또 나머지 음질이 좋지 않거나 가사를 알수 없는 92시간 음원 데이터는 학습 데이터 셋 '싱 와일드데이터 셋'으로 분리했다.

연구팀은 딥싱어가 가사, 시간, 음의 높낮이, 레퍼런스 오디오로 부터 정확한 음조로 자연스러운 음성 합성을 했다고 밝혔다. 또 앞으로 AI기술을 더욱 고도화해 딥싱어 내 다양한 서브 모델을 공동으로 학습시키고 음성 합성 기술을 개선할 계획이다.

연구진이 만든 노래 합성본은 연구팀의 깃허브에서 확인할 수 있다. 

한편 벤처비트는 최근 한 유튜브 채널에서 제이지의 음성랩을 합성해 제이지와 법적분쟁을 일으킨 사건을 인용, 이러한 음성합성기술은 딥페이크를 만드는데 사용할 수 있다고 우려했다.

[관련기사] 구별하기 힘든 연주 멜로디도 AI가 가려낸다

[관련기사] SKT-NEW ID, AI로 영화 자막·BGM 지운다

 

키워드 관련기사
  • MS 인터넷 익스플로러(IE) 25년 만에 역사속으로···‘엣지’로 대체후 변화는?