미디어젠(대표 고훈)은 구글이 개발한 대표적인 E2E(엔드 투 엔드) 음성인식 시스템 ‘컨포머(Conformer)’를 벤치마킹해 기존 성능을 그대로 유지하는 동시에 처리 속도를 약 40% 향상시키는 새로운 컨볼루션 네트워크 구조를 증강, 트랜스포머 기반 음성인식 시스템을 개발했다고 26일 밝혔다.
이번 개발은 한국전자통신연구원(ETRI)의 연구인력 현장지원 프로그램을 통해 진행했다. 이성주 ETRI 책임 연구원과 윤종성 미디어젠 AIMZ 연구소장 등 음성인식 전문 인력들이 참여했다.
특히 LJ스피치 데이터셋을 이용한 음성인식 실험 결과, 구글 컨포머는 CER(Character Error Rate) 4.8%, WER(Word Error Rate) 19.6%의 성능을 보인 바 있다. 이에 가칭 ‘AIMZformer’(미디어젠 음성인식 시스템)는 CER 4.8%, WER 19.2%의 성능을 확인했다.
즉 음성인식 성능을 유지하면서 처리 속도는 컨포머 서브샘플링 40ms 대비 80ms로 크게 향상했다는 설명이다. 결과적으로 학습시간을 약 40% 절약할 수 있다.
베이스라인 역할을 하는 트랜스포머 기반 음성인식 시스템은 CER 6.9%, WER 23.0%의 인식 성능을 나타내고 있다.
이 실험에서는 순수한 신경망의 성능을 평가하기 위해 빔서치(beam search) 등 백엔드 처리를 미수행, 아웃풋 노드의 범주형 교차 엔트로피만으로 학습 및 평가를 거쳤다.
음성인식에 필요한 유닛으로는 알파벳 기반의 캐릭터(character)를 이용해 인식 난이도가 높다고 전했다.
구글 컨포머사 엔코더 성능에 집중한다면, 미디어젠 AIMZ 연구소의 컨볼루션 구조는 범용성에 그 초점을 맞추고 있다. 때문에 디코더의 성능까지 향상시킬 수 있다.
윤종성 소장은 “이번 신기술 개발로 음성인식 반응 속도에 불만을 갖는 사용자들의 만족도를 크게 향상시킬 수 있게 됐다”라며 “향후 음성인식 기술을 활용하는 사업 전반에 속도 개선이 이뤄질 것”이라고 말했다.
한편 미디어젠 AIMZ 연구소에서는 하나의 음성인식 모델로 다국어 음성인식을 할 수 있는 기술을 갖추고 있다. 새로운 대형언어모델(LLM) 개발도 병행 중에 있다.
장세민 기자 semim99@aitimes.com
