클리어버드는 새로운 마이크 시스템을 사용하며 실시간으로 작동하고 스마트폰에서 실행되는 최초의 AI 시스템이다.(사진=워싱턴 대학교)
클리어버드는 새로운 마이크 시스템을 사용하며 실시간으로 작동하고 스마트폰에서 실행되는 최초의 AI 시스템이다.(사진=워싱턴 대학교)

커피숍이나 번화한 거리와 같은 시끄러운 환경에서 배경 소음을 제거하고 화자의 목소리를 높이는 새로운 AI 기반 무선 이어버드(earbuds)가 나왔다.

COVID-19 팬데믹 기간에 회의가 온라인으로 전환됨에 따라 많은 사람들이 음성, 차량 소음 및 기타 시끄러운 소리가 중요한 대화를 방해한다는 것을 알게 되었다. 이 경험은 룸메이트였던 워싱턴 대학 연구원 3명이 더 나은 이어폰을 개발하도록 영감을 주었다. 화자의 목소리를 높이고 배경 소음을 줄이기 위해 ‘클리어버드(ClearBuds)’는 새로운 마이크 시스템과 실시간으로 작동하고 스마트폰에서 실행되는 최초의 AI 시스템을 사용한다.

데이터노미(Datanomy)에 따르면 연구원 들은 지난 6월 모바일 시스템, 애플리케이션 및 서비스에 관한 ACM 국제 회의에서 프로젝트를 발표했다. 클리어버드는 두 가지 주요 면에서 다른 무선 이어버드와 차별화된다. 첫째, 클리어버드는 듀얼 마이크 어레이를 사용한다. 각 이어버드의 마이크는 정보를 제공하고 더 높은 해상도로 다른 방향에서 나오는 소리를 공간적으로 분리할 수 있도록 하는 두 개의 동기화된 오디오 스트림을 생성한다. 둘째, 경량 신경망이 화자의 목소리를 더욱 향상시킨다.

클리어버드 데모.(영상=워싱턴 대학교)

대부분의 상업용 이어버드에도 마이크가 있지만 한 번에 하나의 이어버드만 스마트폰으로 오디오를 전송한다. 클리어버드를 사용하면 각 이어버드가 오디오 스트림을 스마트폰으로 보낸다. 연구원들은 이러한 스트림이 서로 70마이크로초 이내에 동기화될 수 있도록 블루투스 네트워킹 프로토콜을 설계했다.

팀의 신경망 알고리즘은 스마트폰에서 실행되어 오디오 스트림을 처리한다. 먼저 음성이 아닌 소리를 억제한다. 그런 다음 양쪽 이어버드에서 동시에 들어오는 모든 소음(화자의 음성)을 분리하고 강화한다.

클리어버드는 다양한 소음 유형을 구별할 수 있는 음향 정보를 활용하여 작동한다.(사진=워싱턴 대학교)
클리어버드는 다양한 소음 유형을 구별할 수 있는 음향 정보를 활용하여 작동한다.(사진=워싱턴 대학교)

공동 저자인 이산 차터지(Ishan Chatterjee)는 "화자의 목소리가 두 이어버드에서 가깝고 거의 같은 거리에 있기 때문에 신경망은 음성에만 집중하고 다른 목소리를 포함한 배경 소리는 제거하도록 훈련할 수 있다"며 “이 방법은 우리의 귀가 작동하는 방식과 매우 유사하다. 소리가 어느 방향에서 왔는지 판단하기 위해 왼쪽 귀와 오른쪽 귀로 오는 소리 사이의 시간 차이를 사용한다"고 설명했다.

3D 인쇄된 이어버드 인클로저 앞에 있는 클리어버드 하드웨어(둥근 디스크)다.(사진=워싱턴대학교)
3D 인쇄된 이어버드 인클로저 앞에 있는 클리어버드 하드웨어(둥근 디스크)다.(사진=워싱턴대학교)

연구원들이 클리어버드를 애플의 에어포드 프로(Apple AirPods Pro)와 비교했을 때 클리어버드가 더 나은 성능을 보여 모든 테스트에서 더 높은 신호 대 잡음비(signal-to-distortion rate)을 달성했다.

공동 리드 저자인 비벡 자야람(Vivek Jayaram)은 "일반적으로 신경망을 실행하는 데 사용되는 대형 상용 그래픽 카드에 비해 컴퓨팅 성능이 매우 낮은 아이폰(iPhone)에서 신경망을 20밀리초 미만으로 실행해야 한다는 사실을 고려할 때 놀라운 일이다"며, "그것은 우리가 해결해야 하는 과제의 일부다. 출력 품질을 유지하면서 기존 신경망을 어떻게 사용하고 크기를 줄일 수 있을까?"라고 덧붙였다.

연구팀은 또한 커피숍이나 번화한 거리와 같은 시끄러운 환경에서 8명의 사람이 책 읽는 것을 녹음해 클리어버드를 테스트했다. 그런 다음 연구원들은 37명의 사람들에게 이 녹음의 10~60초 클립을 평가하게 했다. 참가자들은 클리어버드의 신경망을 통해 처리된 클립이 최고의 소음 억제와 최고의 청취 경험을 가진 것으로 평가했다.

클리어버드의 한 가지 한계는 소음 억제 경험을 얻기 위해 양쪽 이어버드를 모두 착용해야 한다는 것이다. 그러나 여기에서 개발된 실시간 통신 시스템은 스마트 홈 스피커, 로봇 위치 추적 또는 수색 및 구조 임무를 포함하여 다양한 다른 응용 프로그램에 유용할 수 있다고 연구팀은 말했다.

연구팀은 현재 이어폰에서 실행할 수 있도록 신경망 알고리즘을 훨씬 더 효율적으로 만드는 작업을 하고 있다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]아틀라스랩스 "AI 음성인식, 실제 상담원처럼 대화 내용 분석까지 해야"

[관련기사]아마존, 흑인이 창업한 음성 AI 기술 스타트업 지원 발표

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지