BTS 키운 빅히트 ... AI 스타트업 수퍼톤에 40억 투자
가창합성기술 AI... 예능에서 옥주현과 모창 대결 펼쳐
AI가 악보 읽어 '음정, 음의 길이' 등 감정 요소 학습
배우 목소리 바꿀 수 있는 '보이스클로닝' 기술 개발
허훈 CTO "콘텐츠 제작 위해 아티스트 목소리 듣겠다"

연구개발중인 수퍼톤 직원들. 우측 벽면에는 뮤지션 포스터가 붙어있다. (사진=이하나 기자)
연구개발중인 수퍼톤 직원들. 우측 벽면에는 뮤지션 포스터가 붙어있다. (사진=이하나 기자)

"뮤지션들 사이에서는 '공돌이' 취급을 받고요, 공돌이 사이에서는 '딴따라' 취급을 받습니다. 우리는 스스로를 경계인이라고 부릅니다"

사무실 구석에 자리 잡은 전자드럼이 눈에 띈다. 옆으로는 프로그래밍 작업 중인 모니터들이 늘어서 있다. 창작자를 위한 인공지능(AI) 오디오 솔루션 스타트업 '수퍼톤'의 첫인상이었다. 호기심을 당기는 이들의 정체는 뭘까. 뮤지션인가, 개발자인가?

정답은 '음악을 사랑하는 AI 개발자'이다. 수퍼톤 CEO인 이교구 서울대 교수를 비롯해 11명 구성원은 모두 악기 하나씩은 다룰 줄 아는 '준프로' 뮤지션이다.

하지만 기술 스타트업답게 수퍼톤이 가장 주력하고 있는 분야는 연구개발이다. 구성원 절반은 연구원, 개발자로 이뤄져 있다. 최희두 COO는 사업 확장보다는 기술 고도화에 집중하겠다고 밝힌다.

수퍼톤은 지난해 3월 설립해 올해 갓 2년차를 맞이한 스타트업이다. 연혁은 짧지만 그동안 보여준 활약상은 결코 적지 않다.

수퍼톤이 개발한 가창합성기술 AI는 예능 프로그램에서 옥주현과 모창 대결을 펼쳤다. (사진=SBS ‘세기의 대결: AI vs 인간’ 캡처)
수퍼톤이 개발한 가창합성기술 AI는 예능 프로그램에서 옥주현과 모창 대결을 펼쳤다. (사진=SBS ‘세기의 대결: AI vs 인간’ 캡처)

수퍼톤은 1월 SBS 예능 프로그램에서 '노래하는 AI'로 세간의 이목을 끈 바 있다. 모창 난이도 '끝판 왕'이라고 불리는 옥주현과 모창 대결을 펼친 AI '가창합성기술'을 개발해 선보였다. 대중은 이색 대결 소식에 놀라고 AI 가창 실력에 또 한번 놀랐다.

최근에는 국내 대표 엔터테인먼트사 빅히트도 수퍼톤을 주목했다. 40억 규모 투자 소식을 밝혀 화제가 됐다.

학계 역시 수퍼톤을 주목한다. 수퍼톤 이주헌, 최형석 연구원은 이교구 대표와 함께 인터스피치(Inteerspeech)에서 2019년 '최우수 학생 논문상(Best Student Paper Award)'을 거머쥐기도 했다.

인터스피치는 음성언어처리 분야에서 세계 최고 권위를 인정 받는 국제학회다. 이때 개발된 노래하는 AI 가창합성기술이 수퍼톤 창업의 근간이 됐다.

최근에는 마이크로소프트 주관 2021 음성신호처리학회(ICASSP, International Conference on Acoustics, Speech, and Signal Processing)에서 실시간 잡음 제거 부문 3위를 수상했다. 이는 아마존, 바이두 등 국제 빅테크 기업보다 앞선 성적이다.

음악에 대한 애정과 AI 기술에 대한 열정이 수퍼톤을 특별하게 만든다. 경계인보다는 새로운 창작 영역을 개척한 선두주자인 셈. 이렇듯 대중, 아티스트, 업계, 학계에서 두루 인정받으며 종횡무진 맹활약 중이다.
 

◆‘감정’ 배운 AI... 문화예술 영역에 진출할 수 있는 이유

가창합성기술 원리(사진=수퍼톤 제공)
가창합성기술 원리(사진=수퍼톤 제공)

수퍼톤이 개발하는 가창합성 등 음성 기반 AI 기술은 TTS(Text To Speech)의 일종이다. 음성합성기술이라고도 불리는 TTS는 기계에게 '말'을 가르치는 기술이다. 키오스크나 내비게이션 등 음성 안내가 가능한 기계는 대부분 TTS 기술을 활용한다. 기계에게 텍스트를 입력해 스피커로 출력하는 식이다.

최근 TTS 기술이 발전하고 있지만 단조로운 톤이나 어색한 어조 등 '기계 말투'를 완벽히 벗어나지 못하고 있다.

하지만 수퍼톤은 AI에게 텍스트뿐 아니라 '감성 정보'를 함께 학습시켜 그 한계를 극복한다. 사람을 감동시키는 문화예술 영역에 TTS 기술을 적용할 수 있는 이유다.

가창합성기술의 경우 수퍼톤은 AI에게 ▲텍스트 정보(가사) ▲오디오 정보(가수의 목소리)뿐 아니라 ▲감성 정보까지 학습시킨다. 감성 정보에 대한 학습은 악보를 통해 이뤄진다. 수퍼톤은 음정, 음의 길이 등 감정에 따라 달라지는 음성 요소가 담겨있는 악보 읽는 법을 AI에게 가르쳤다.

한 가지 더 주목할 점은 AI가 저용량 데이터 학습으로 가창 실력을 갖출 수 있다는 점이다. 연예인 목소리로 응답하는 AI 스피커 서비스 등은 개발을 위해 40시간이 넘는 해당 연예인 음성 데이터를가 필요하다.

하지만 수퍼톤의 가창합성기술은 故김광석의 목소리를 부활시키기 위해서 18분 분량의 9곡만으로 가능했다.

수퍼톤 2020 데이터바우처 성과보고회(사진=데이터바우처 유튜브 채널 영상 캡처)
수퍼톤 2020 데이터바우처 성과보고회(사진=데이터바우처 유튜브 채널 영상 캡처)

이는 수퍼톤이 앞서 '만능 AI 가수'를 만들었기 때문에 가능했다. 만능 AI 가수란 기본적으로 한국어 발음 체계를 이해하고 악보를 읽을 수 있는 '베이스 모델'을 뜻한다.

수퍼톤은 베이스 모델에 1000곡 분량의 음원 파일을 사전 학습시켜 노래하는 AI를 만들었다.

이는 딥러닝 학습 방법 중 전이학습을 활용한 예다. 전이학습의 경우 사전 대용량 데이터로 훈련한 AI 모델을 재사용한다. 1000곡 분량을 학습한 만능 AI 가수는 소량 데이터만으로도 타인의 노래 실력을 습득할 수 있다.

최희두 COO는 이러한 가창합성기술 기반 AI 가수가 "언캐니밸리를 넘어섰다"라고 말한다. 언캐니밸리란 인간이 인간 아닌 존재를 바라볼 때 닮은 정도가 일정 수준을 넘으면 불쾌감을 느낀다는 이론이다.

기계가 아무리 사람처럼 말해도 특유 '로봇 톤'이 느껴지면 로봇이 사람 흉내를 낸다는 불쾌감을 떨칠 수 없다. 하지만 수퍼톤은 감성을 담아 말하고 노래할 수 있는 AI를 통해 그 한계를 극복했다는 것이다.

이교구 수퍼톤 CEO(사진=수퍼톤 제공)
이교구 수퍼톤 CEO(사진=수퍼톤 제공)

이교구 수퍼톤 CEO는 감정을 갖지 않은 AI가 인간을 감동시킬 수 있느냐는 질문에 "감동은 수용자 입장이 더 중요하다고 생각한다. 그럴 의도도 감정도 없는 자연으로부터 인간은 감동을 자주 받는다"라며 "AI가 만든 창작물로도 인간이 충분히 감동받을 수 있다고 생각한다"고 말했다.
 

◆노래 넘어 연기까지... “목소리로 가능한 모든 콘텐츠 만든다”

시작은 음악이었지만 수퍼톤이 나아가고자 하는 길은 '모든' 예술 창작영역이다. 최희두 수퍼톤 운영이사는 "목소리로 가능한 모든 콘텐츠를 만들겠다"고 목표를 밝힌다.

수퍼톤은 '노래하는 AI'뿐 아니라 '연기하는 AI' 기술까지 개발했다.

보이스클로닝이라고 소개한 음성복제기술은 사람의 목소리를 학습해 흉내내어 재생산할 수 있다.

수퍼톤은 올해 상반기 개봉을 앞둔 박혁지 감독의 독립 영화 지구에 온 첼리스트 프로젝트에 참여해 보이스클로닝 기술을 선보일 예정이다.

영화에는 발화에 어려움을 겪는 자폐증 주인공이 등장한다. 보이스클로닝으로 주인공 목소리를 복제해 내레이션을 삽입하는 작업을 수퍼톤이 맡았다.

보이스클로닝 베이스모델이 전이학습을 거쳐 주인공의 타깃 데이터를 학습한다. 성우가 내레이션을 읊을 때 이 목소리를 앞서 학습한 주인공의 목소리로 바꾸는 식이다. 이에 말하기가 어려웠던 주인공이 오롯한 자신의 목소리로 속마음을 전할 수 있게 된다.

보이스클로닝이 가창합성기술과 다른 점은 입력 데이터가 '목소리' 자체라는 것이다. 가창합성기술의 경우 베이스모델에 텍스트와 악보가 입력된다.

수퍼톤은 보이스클로닝 기술 개발을 위해 목소리를 ▲음색 ▲발음 ▲운율 ▲음량 다각적으로 세분화해 분석한다. (사진=수퍼톤 제공)
수퍼톤은 보이스클로닝 기술 개발을 위해 목소리를 ▲음색 ▲발음 ▲운율 ▲음량 다각적으로 세분화해 분석한다. (사진=수퍼톤 제공)

보이스클로닝에는 사람 목소리가 그대로 입력된다. 수퍼톤은 보이스클로닝 기술 개발을 위해 목소리를 4가지 영역으로 구분해 접근했다. ▲음색 ▲발음 ▲운율 ▲음량이다.

보이스클로닝은 사람마다 고유 영역을 가진 목소리를 음색 영역에 대체한다. 영화 스파이더맨에 등장하는 톰홀랜드가 연기톤은 유지한 채 목소리만 로버트 다우니 주니어로 바꾸는 게 가능하다.

음색을 제외한 3가지 영역은 사후 보정을 통해 미세한 조절도 가능하다. 이에 말소리의 크기와 속도를 조절할 수 있다. 단순 말하는 방식 외에 화자의 성별을 바꾸거나 언어를 바꾸는 것도 가능하다.

이러한 보이스클로닝 기술의 활용도는 무궁무진하다. 영화 겨울왕국의 경우 각국 언어로 더빙하기 위해서는 각 캐릭터별로 수많은 성우가 필요하다. 이때 음성복제를 통해 한 명의 성우 목소리를 여러 캐릭터 더빙을 대체할 수 있다.
 

◆기술 오·남용 방지를 위한 수퍼톤의 철칙

"우리 기술은 날이 잘 드는 칼과 같다. 요리사에게 쥐어주면 훌륭한 요리를 만들지만 범죄자에게 쥐어주면 사고가 날 수도 있다"

최희두 COO는 "AI가 정말 인간처럼 말하는 걸 목격한 순간 '위험'을 감지했다"고 말했다.

이에 수퍼톤은 기술 안전 활용을 위한 방침을 제시한다.

첫째, 당사자 허락 없이는 콘텐츠를 만들지 않는다. 고인의 경우 유족의 허락을 받으며 팬들의 기대에 어긋나는 콘텐츠는 만들지 않는다는 주의다.

둘째, 기술이 적용됐다는 걸 식별할 수 있는 AI를 개발한다. 이를테면 '경찰 AI'를 만들어 복제, 합성된 목소리를 구분 가능하게 한다. 현재도 개발 중인 경찰 AI 시스템은 수퍼톤 자체 생산한 샘플에 대해서는 90% 이상 구분이 가능하다. 시스템을 오픈소스화해 비단 수퍼톤 뿐만 아니라 다른 기업과 대중도 이용하도록 한다는 목표다.

셋째, 24시간 모니터링을 통한 기술 오남용을 원천 차단한다. 수퍼톤의 기술은 소프트웨어화해 납품하는 형태가 아니다. 클라우드를 거쳐 기술을 이용해 타인의 접근·활용이 모두 추적 가능하다. 기술 사업을 B2C 형태로 대중에게 공개하는 게 아닌 통제 가능한 환경에서 기술을 활용해 좋은 사례를 먼저 선보인다는 목표다.
 

◆수퍼톤 “창작자의 목소리를 최대한 많이 들으려고 한다”

최희두 운영이사(위)와 허훈 CTO(아래) (사진=이하나 기자)
최희두 운영이사(위)와 허훈 CTO(아래) (사진=이하나 기자)

허훈 CTO는 수퍼톤에게 가장 중요한 건 "아티스트와의 협력"이라고 말한다. 기술을 기반으로 실제 콘텐츠를 만들기 위해서는 여러 창작자들의 아이디어가 필요하기 때문이다.

앞서 말한 독립 영화 프로젝트 제안이 들어왔을 때 수퍼톤은 "쌍수들고 환영했다"라고 표현하며 아티스트의 아이디어 제안에 반가워했다.

한편 수퍼톤은 고민거리로 '인력 유치'를 꼽았다.

최희두 이사는 현재 수퍼톤 구성원에 대해 "만나자마자 서로를 알게 되는 데 오래 걸리지 않았다"라고 말한다. 뮤지션이자 개발자로서 어느 한쪽에 뚜렷이 속하지 못한 서로의 모습에 쉽게 공감대를 이뤘다는 고백이다.

하지만 "생각보다 이 만남을 갖기까지 오래 걸렸다"고 말한다. 문화예술과 개발 양쪽에 두루 관심을 가진 이들을 찾기 어렵다는 뜻이다.

허훈 CTO는 "어느 한쪽에 깊이 쏠리지 않으면서 좋아하는 것들의 접점이 뭐가 있을까 고민하다가 창업까지 오게 됐다"라며 "현재 투자 유치 이후 우리와 비슷한 사람을 찾는 게 가장 큰 고민"이라고 말했다.

AI타임스 장희수 기자 heehee2157@aitimes.com 이하나 기자 22hnxa@aitimes.com 정윤아 기자 donglee0408@aitimes.com

[관련기사][기획연재: AI와 음악을] ③ AI, 음악 산업계 신흥 강자로 떠오르다

[관련기사][AI로 만드는 컬처] ③인공지능과 미래의 음악

키워드 관련기사
  • "양자컴퓨터 해킹 막는 '양자암호기술', 국산화 필수"
  • 네이버 하정우 AI 연구소장 “한국어판 GPT-3 청사진 4월 공개”
  • [박정현의 데이터사이언스 시작하기] ⑪ 성능평가 (2) - 분류