김용호 스트라 대표

김용호 스트라 대표가 포즈를 취하고 있다.
김용호 스트라 대표가 포즈를 취하고 있다.

스트라(대표 김용호)가 디지털 교과서 음악 제작에 적용 중인 '인공지능(AI) 채보' 기술로 사업영역 확장에 도전하겠다고 밝혔다.

김용호 대표는 "MP3 파일을 분석해 코드, 멜로디를 추출하고 기타, 피아노, 드럼 등 각 악기별로 분리된 미디 파일을 생성하는 기술로 현재 교육부의 디지털 교과서 음악 사업에 참가 중"이라며 "이를 기반으로 앞으로는 저작권 및 표절 분석 및 ‘케이팝 해외 팬 타깃 애플리케이션 구축, 노래방 콘텐츠 완전 자동화 등으로 사업을 확장할 계획"이라고 16일 밝혔다.

교육부는 학교 및 수업의 디지털전환(DX)을 적극 추진하기 위해 2025년 전국 교육 현장 도입을 목표로 디지털교과서 사업을 주도하고 있다.

이중 의외로 어려움을 부문이 음악이다. 종이 형태 악보의 경우 OCR(광학문자인식)을 거쳐 미디 파일 형태로 바꾸는 과정이 필요하다. 이 과정에서 음원 분리와 코드 추출, 미디 파일 변환은 기술적인 어려움이 따른다. 반대로 디지털음원 형태에서 코드를 추출, 음표와 악보로 변환하는 과정도 난제로 꼽힌다.

2021년 설립한 스타트업 스트라가 이 사업에 참여하게 된 것은 일찌감치 해당 기술을 보유했기 때문이라고 밝혔다. 김용호 대표는 이에 'AI 채보'라는 이름을 붙였다.

채보란 음악을 듣고 악보 형태로 받아적는 것을 말한다. ‘AI 채보’는 결이 조금 다르다. MP3 파일을 분석해 코드, 멜로디를 추출하고 기타, 피아노, 드럼 등 악기별로 분리한 미디 파일을 생성하는 기술이다.

김 대표는 한국과학기술원(KAIST) 문화기술대학원 석사를 거쳐, 삼성전자에서 10여년 간 UX디자이너 업무를 맡으며 음성인식 '빅스비’를 담당했다.

스트라의 시작도 삼성전자 사내벤처 프로그램 ‘C랩 인사이드’ 선정이 계기였다. 김 대표는 자신의 특기를 살려 음악 코드 인식 애플리케이션을 선보였다.

서울대 융합과학대학원 석사 출신 공동창업자와 만나며 MP3 음원 파일에서 연주 코드를 분석, 추출해 내는 기술을 개발했다. 기타 연주에 특화한 애플리케이션 ‘코다(CODA)’도 출시했다.

이후 ‘C랩 스핀오프’에 선정, 2021년 독립했다. “사실 처음에는 시장 수요를 파악하지 못했다”라며 “기술과 아이디어에만 집중했다”라고 고백했다. 그만큼 시행착오도 많았다.

B2C, B2B 사업 모델의 시행착오 끝에 돌파구를 찾은 것은 교과서 제작사의 문의 덕분이었다. 지난해 8월 국내 유명 교과서 출판사와 계약을 완료, 9월부터 협업을 진행하고 있다. 

이 작업은 생각보다 단순하지 않다고 전했다. "음원에서 보컬과 악기를 구별해 미디 파일로 변환해 다시 악보 형태로 제작하는 ‘멀티트랙 채보’는 박자나 쉼표 등 AI가 놓칠 수 있는 부분이 많다"라며 "기술을 업그레이드, 교과서를 넘어 가요 등 장르 국한 없는 음악 변환이 가능하도록 준비 중"이라고 말했다.

실제 스트라가 무료로 공개한 베타 버전 서비스를 이용하면 음원 파일을 집어넣어 몇분 안에 음원 분리와 미디 파일 변환을 완료할 수 있다. 이후 파일을 가라지 밴드(garage band) 등 시중 작곡 프로그램 및 애플리케이션에 업로드하면 청취는 물론 악보 전환도 가능하다. 

김 대표는 "이처럼 분리-변환-악보 세단계의 원활한 협업이 이뤄져야 AI 채보 기술의 완성 단계에 도달한 것"이라며 “현재 음원 채보 정확도는 80%대로, 95%까지 끌어올리는 것이 목표”라고 전했다.

김용호 스트라 대표가 음원분리 후 가라지 밴드 프로그램에 해당 파일을 넣어보고 있다. 
김용호 스트라 대표가 음원분리 후 가라지 밴드 프로그램에 해당 파일을 넣어보고 있다. 

이를 바탕으로 향후 도전할 새로운 사업 모델 중 노래 저작권 및 표절 분석 문제는 국내 키즈 콘텐츠 기업의 제의로 시작됐다. 다른 기업이나 개인의 표절 방지는 물론 기존 음악과 유사한 멜로디를 창작했을 때 미리 걸러낼 수 있는 자체 검열 장치로 사용하는 것이다.

표절의 경우 저작권협회 기준인 6~7마디가 겹치는 경우를 피하기 위해 5마디까지 베끼는 방식도 등장하는 데, 이때 음원분리 기술을 바탕으로 측정하면 정밀하게 유사도를 측정할 수 있게 된다는 설명이다.

해외 팬 대상 애플리케이션 ‘케이팝프로’도 공개한다. 케이팝을 따라부르고 싶어 하는 팬에게 한국어 가사의 영어 표기를 제공한다. ‘나를’이라는 가사를 ‘nareul’ 과 같이 표기하는 방식으로, 여기에는 ‘로마나이제이션’ 기술이 들어간다. 케이팝 수요가 가장 큰 일본어를 대상으로 로마나이제이션을 추진하고 있다.

이를 바탕으로 노래방 콘텐츠 완전 자동화도 계획하고 있다. 노래방은 음원 발표 후 10일 안에 전용 미디 파일을 제작하는 시스템으로, 이때 인력과 시간 소모가 상당하고 기술적으로도 어려움을 겪는 것으로 알려져 았다.

대중가요의 복잡한 음악적 요소를 높은 정확도로 분리할 수 있다면 노래방 체계의 자동화도 불가능한 일은 아니다. 가사와 멜로디 등을 동시에 분리하는 기술은 케이팝프로를 제작하며 이미 완성한 상태다. “추후 분리한 음악적 요소를 다시 결합하는 단계까지 나아갈 것”이라고 전했다.

마지막으로 김용호 스트라 대표는 “현재 음원 분리 시장은 텍스트 생성 위주의 GPT 초기 단계에 해당하는 것 같다”라며 “인간을 대체할 만큼의 성능에는 도달하지 못했다"라고 지적했다.

하지만 "조금 더 시간이 지나면 챗GPT처럼 전성기를 맞이할 것”이라며 "스트라는 시장을 이끌 선두 주자가 되기 위해 꾸준히 기술력을 고도화하겠다"라고 말했다.

한편 스트라의 기술은 베타 사이트에서 체험해 볼 수 있다. 

장세민 기자 semim99@aitimes.com

키워드 관련기사
  • 스트라, 'AI 채보 기술'로 AI 바우처 공급기업 선정