페이스북, 5개의 음성 동시 구분하는 AI 개발

순환신경망(RNN) 기술을 활용해 오디오 가변길이 시퀀스를 처리
보청기 성능을 향상시켜 파티나 식당과 같이 붐비고 시끄러운 환경에서 도움을 줄 것으로 기대

다섯명이 동시에 말해도 구분해서 녹음 하는 인공지능(AI)기술이 등장했다. 향후 이 AI기술을 보청기에 접목해 성능을 향상 시킬 것으로 기대된다.

페이스북 연구팀이 최근 열린 2020 국제 머신러닝 컨퍼런스(ICML)에서 최대 5개의 음성을 동시에 분리하는 AI 모델을 담은 연구결과를 공개했다고 벤처비트가 지난 10일(현지시간) 보도했다.

연구팀은 이 AI모델이 까다로운 소음, 잡음 등 여러 음성소스를 분리하는 기술 벤치 마크에서 이전 성능을 뛰어 넘는 점수를 기록했다고 밝혔다.

연구팀은 순환신경망(RNN) 기술을 활용해 오디오 가변길이 시퀀스를 처리하는 녹음 모델을 개발했다. 이 모델은 음성 분리망으로 오디오 파형을 각 스피커에 대한 예상 오디오 신호로 변환했다. 서브 시스템이 스피커를 자동으로 감지, 그 수에 맞춰 음성 모델을 선택했다.

연구팀은 서로 다른 개수의 스피커 음성 데이터셋으로 AI모델을 교육시켰다. 또 존재하는 오디오 채널의 수를 감지할 수 있도록 최대 5개의 스피커를 수용하도록 음성 혼합본을 사용했다. 그 다음 활성 스피커 수를 학습한 모델로 동일한 프로세스를 반복했다. 그 결과, AI는 출력 채널의 활성 도를 분석, 모든 채널이 활성화돼있거나 스피커수가 가장 적은 모델을 알아냈다.

주변음과 대화를 분리하는 음성 분리 기술은 음성 메시지와 비디오 도구 소프트웨어에서 중요한 기술이다. 예를 들어 악기 녹음 시 배경 소음 제거에 활용할 수 있다.

페이스북 연구팀은 이 AI모델이 보청기 성능을 향상시켜 파티나 식당과 같이 붐비고 시끄러운 환경에서 도움을 줄 것으로 기대했다. 또 앞으로 실제 환경에서 충분히 높은 성능을 달성할 수 있을 때까지 모델을 최적화할 계획이다.

한편, 페이스북 연구팀의 이번 연구는 구글이 앞서 발표한 논문 '혼합 불변형 교육(MixIT)'을 참고했다. 이 모델은 오디오 녹음에서 여러 화자의 목소리를 분리ㆍ강화하는 비감시 접근법을 다뤘다.

[관련기사] 페이스북, AI로 컴퓨터 코드 자유자재로 변환

[관련기사] 페이스북, 넷핵 게임을 활용한 AI 개발 툴 공개

'빅스비'와 '시리'가 사라진다?…AI 스피커에 '애칭' 등록기술 등장

이호진 기자 Holk@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기