(사진=셔터스톡).
(사진=셔터스톡).

사람의 목소리나 물체에서 나는 다양한 소리를 분류할 때에도 AI 편향이 들어간다. 일명 '멜 필터뱅크'라고 불리는 머신러닝 알고리즘은 설계된 지 수십 년이 지난 현재 이런 평가를 받는다. 세분화된 분해작업이 필요한 높은 주파수 소리를 연구할수록 편견에 의한 멜 필터뱅크 결함은 지속적으로 문제가 되어왔다.

이에 구글이 편향을 줄인 새로운 오디오 분류 모델 리프(LEAF)를 개발했다. 벤처비트가 25일(현지시간) 보도한 바에 따르면 리프는 멜 필터뱅크를 필터링·압축·정상화 등 여러 구성요소로 분해하는 전단부(프런트 엔드, Front-End) 모델이다. 구글 연구팀은 리프가 멜 필터뱅크를 능가하는 수백 개 파라미터(매개변수) 세트를 학습할 수 있으며 최소한의 편견으로 범용 오디오 분류 작업에 사용할 수 있다고 밝혔다.

미 시장조사기관 그랜드뷰리서치는 지난 2018년 전 세계 음성인식 시장이 약 6650만달러(약 734억 7000만원)로 평가받았으며 이듬해부터 2025년까지 75% 이상 확대될 것이라고 전망했다. 그만큼 음성인식 기술은 AI 시대가 오면서 급성장 중이다.

이같은 흐름 속 등장한 리프는 AI가 다양한 사건과 환경 맥락을 이해하고 차별화를 통해 소리를 정확히 인지할 수 있도록 도와준다. 예를 들어 리프는 누군가가 실내에 침입했을 때 AI로 구동되는 음향 감지 기술 탑재 시스템이 자동으로 불을 켜고, 시끄러운 음악을 재생함으로써 집주인에게 경고신호를 보낼 수 있다. 리프를 개발한 연구팀은 관련 논문에서 리프를 사용하면 수작업으로 사운드 표현을 하지 않아도 이러한 종류의 제품을 쉽게 만들 수 있다고 설명했다.

연구팀은 리프로 언어식별을 비롯한 스피커 식별·악기감지·음조감지·감정인식 등 여덟 가지 항목을 나눠 단일 작업 실험을 실시했다. 그 결과 리프로 생성된 모델이 기존 멜 필터뱅크나 다른 대안기술보다 성능이 뛰어난 것은 물론 정확도도 일치한 것을 증명했다.

리프를 직접 개발한 연구팀은 공식 성명을 통해 “멜 필터뱅크를 대신할 수 있는 신뢰할 만한 모델 개발에 힘썼다”며 “수백 개의 파라미터로 제어하는 동시에 모든 운영체제에서 완벽하게 학습 가능한 리프가 그 대안책”이라고 밝혔다. 또 “광범위하고 다양한 오디오 신호를 학습할 수 있다는 장점은 까다로운 대규모 벤치마크도 통과할 수 있을 것”이라고 예측했다.

연구팀은 리프 개발 성과를 담은 논문을 ICLR2021에서 공개했다. ICLR은 세계 최고 딥러닝 컨퍼런스 중의 하나다. 이를 시작으로 연구팀은 곧 리프의 소스코드도 공개할 계획이다.

 

AI타임스 박혜섭 기자 phs@aitimes.com

[관련기사] 화상회의 중 자막 생성 '오터.ai'…구글미트에서도 사용한다

[관련기사] 올해 업데이트된 구글 스칼라 인공지능 학회 순위 TOP 20

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지