DCASE2020에서 우수한 성적을 거둔 ETRI 연구진(왼쪽부터 이태진 미디어부호화연구실장, 박수영 연구원, 정영호 책임연구원)
DCASE2020에서 우수한 성적을 거둔 ETRI 연구진(왼쪽부터 이태진 미디어부호화연구실장, 박수영 연구원, 정영호 책임연구원)

국내 연구진이 인공지능(AI)를 이용해 소리만 듣고 상황을 판단할 수 있는 음향 인식 국제 대회에서 1위를 차지했다. 

한국전자통신연구원(ETRIㆍ원장 김명준)은 지난 3월부터 6월 중순까지 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수의 기업과 기관이 참가해 과제별 기술경쟁을 펼친 '세계 AI 음향 이벤트 및 장면 인식 기술 경진 대회(DCASE 2020)' 음향 장면 인식 분야에서 1위를 기록했다고 20일 밝혔다.

올해 6회째를 맞은 DCASE 2020은 세계 최대 전기ㆍ전자기술자협회(IEEE) AASP(Audio and Acoustic Signal Processing)가 주관하는  음향 기술 대회다.

올해 대회에는 6개 분야에 총 138개 팀이 참여, 473개 제안 시스템을 제출해 경쟁을 펼쳤다.

ETRI는 '복수 단말 대상 음향 장면 인식' 과제에서 시스템 순위 1ㆍ2위를 석권했다. 여러 종류 단말기로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 과제였다. 총 28개 팀이 92개 시스템을 제출한 가운데 ETRI가 종합 팀 순위 1위를 달성했다. 2등은 조지아텍-중국과기대-텐센트-UEK 연합팀이 차지했다.

ETRI가 개발한 기술은 노약자와 청각 장애인 등을 위한 '위험 회피 기술' 분야로 응용이 가능하다. 소리를 잘 듣지 못해 상황을 인식하지 못하는 계층에게 도움을 줄 수 있다. 또 소리를 듣고 관련 정보를 도출하는 미디어 자동 태깅 기술, 자동차ㆍ기계 소리를 듣고 이상 유무를 알아내는 장비 상태 모니터링, 로보틱스 등 다양한 분야에서 활용할 수 있을 것으로 보인다.

연구진은 ▲소리를 주파수 대역별로 나눠 모델이 각각 학습을 할 수 있도록 한 '딥러닝 트라이던트(Trident) 구조 신경망 개발' ▲단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닐 수 있는 '비균등 입력 특징 분할 기법'을 설계 및 적용했다고 설명했다.

연구진은 수행 중인 과제와 관련해 '저복잡도 기반 음향 장면 인식' '음향 발생 방향 및 이벤트 인식' 분야에도 참가했다. 입상팀은 추가 성능 분석 결과를 포함해 학회 논문 제출 및 발표를 진행할 예정이다.

김흥묵 ETRI 김흥묵 미디어연구본부장은 "딥러닝 음향 인식 기술은 향후 새로운 응용 서비스 기술 개발을 통해 국내 관련 산업 경쟁력 확보와 시장 활성화에 크게 기여할 것이다"라고 말했다.

 

[관련 기사] ETRI, 세계 AI 영상압축 대회서 1ㆍ2위 석권

[관련 기사] 멀티미디어 표준화 우리 전문가가 이끈다