ETRI 연구진이 24개 음성인식 기술을 이용해 세계 각국 정상 연설을 실시간으로 자막화하고 있다. (사진=ETRI)
ETRI 연구진이 24개 음성인식 기술을 이용해 세계 각국 정상 연설을 실시간으로 자막화하고 있다. (사진=ETRI)

 한국전자통신연구원(ETRI, 원장 김명준)은 세계 주요 24개 언어를 음성으로 인식해 문자로 변환하는 ‘대화형 인공지능(AI) 기술’을 개발했다고 3일 밝혔다. 

연구진은 ▲자기 지도학습 ▲의사 레이블 적용 ▲대용량 다국어 사전 학습 모델 ▲오디오 데이터 생성(TTS) 증강 기술 등으로 다국어 확장과 음성인식 기능을 확보했다고 설명했다.

기존에 흔히 활용했던 종단형 음성인식 기술의 단점을 개선했다. 느린 응답속도는 스트리밍 추론 기술로 실시간 처리가 가능하도록 처리했다. 의료와 법률, 과학기술 등 특정 분야에 대한 음성인식 특화가 쉽도록 하이브리드 종단형 인식 기술도 자체 개발해 적용했다.

ETRI는 이 기술이 AI콜센터를 비롯해 AI스피커, 자동통역, AI비서, 의료 등 다양한 AI 서비스 확산에 큰 도움이 될 것이라고 밝혔다.

더불어 신기술 적용을 통해 음성인식 기술 활용 범위도 확대한다. 올해 안으로 지원 언어를 30개로 늘리고 국내외 전시 참여와 기업체 설명회를 통해 동남아, 남미, 아랍권 등을 대상으로 사업화를 추진한다.

김상훈 ETRI 복합지능연구실 책임연구원은 "국내기술로 글로벌 선도업체와 대등한 수준의 음성인식 기술을 개발했다는 데 의의가 있다"며 "국내 AI 분야 글로벌 경쟁력을 높이고 기술자주권 확보에 도움이 되길 바란다"고 말했다.

김미정 기자 kimj7521@aitimes.com

 

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지