립싱크만으로 말 알아듣는 AI, 음성인식 넘어 무성인식

뉴럴 네트워크가 얼굴 근육 신호와 단어 의미 연결
2018년 MIT 연구팀 개발 AI '얼터에고' 기점으로 본격화
대중교통, 전쟁터, 도서관 등 활용 기대

이제는 목소리 없이 립싱크만으로 말을 해석하는 AI가 화제다. 소리 내지 않고 입만 움직여도 AI가 말을 해석한다. AI 음성 인식 기술을 이용한 스마트 스피커가 최초 출시된 지 불과 6년, “죄송합니다. 이해하지 못했습니다”라는 시리의 대답을 잘 들으려고 명확히 발음할 필요도 없다.

최근 음성 인식을 넘어 무성 언어 인식 AI 기술 연구가 활발히 진행 중이다. 개발 초기에는 초음파와 컴퓨터비전 기술로 목구멍, 입술, 혀 모양을 분석해 목소리 없이 말을 해석했다. 본격적으로 무성 언어 인식 AI 시스템 개발을 시작한 것은 MIT 연구팀이다.

2018년 MIT 연구팀은 얼굴 신경 근육 신호와 단어 관계를 분석해 말을 해석하는 무성 언어 인식 AI 얼터에고(AlterEgo)를 개발했다. 발성 기관 이미지나 근육 움직임 등의 신호를 수집하는 기기가 보다 간편해졌다. 이후 한양대 계산신경공학연구실을 비롯해 전 세계 연구자들이 근육의 전기적 활성 상태 분석(EMG)을 이용한 무성 언어 인식 AI 연구 성과를 발표하고 있다.

MIT 연구팀이 개발한 얼터에고는 웨어러블 블루투스 디바이스와 컴퓨팅 시스템으로 작동한다. 사용자가 착용하는 디바이스에는 목 뒤 쪽을 감는 골전도 헤드폰과 촉수같은 4개 전극 부착물이 있다.

사용자가 헤드폰을 쓰고 전극 부착물을 입과 턱 주위에 붙인 채 립싱크로 말하면 턱과 얼굴에서 나오는 신경근육 신호를 전극이 감지한다. 머신러닝 시스템은 얼굴 신경 근육 신호와 단어 의미 사이 관련성을 학습한 경험을 토대로 근육 움직임을 말로 해석한다. 해석 결과는 골전도 헤드폰을 통해 음성으로 사용자에게 전달된다. 소리 진동이 얼굴뼈를 지나 내이로 전달되기 때문에 다른 활동에 방해받지 않으면서 AI 통역을 들을 수 있다.

근육 신호 분석, EMG을 이용한 무성 언어 인식 AI 개발을 위해서는 먼저 얼굴 부위 중 어떤 곳이 근육 신호와 밀접한 연관이 있는지 밝혀야 한다. MIT 연구팀은 피실험자에게 립싱크로 같은 단어 나열을 4번씩 말하게 했다. 전극을 붙인 위치는 수시로 변경했다. 결과 데이터 분석에는 코드를 사용해 립싱크한 단어를 매 실험마다 일정하게 구별하는 특정 부위를 도출했다.

전극을 붙일 얼굴 부위를 고른 후에는 20개 단어로 이뤄진 어휘록을 이용해 컴퓨팅 작업을 하고 데이터를 수집했다. 이후 뉴럴 네트워크를 사용해 특정 신경 근육 신호와 단어의 상관관계를 찾아냈다. 딥러닝 모델은 소리 없는 언어 데이터를 31시간 동안 학습했다. 15명이 시스템을 테스트한 결과 92% 정확도를 보였다. 시스템에는 엔비디아 타이탄 X GPUs와 cuDNN-accelerated 텐서플로우를 사용했다.

MIT 연구진은 “(얼터에고를 통해) 사용자는 컴퓨팅 디바이스와 소통할 때 자연스런 언어로 말할 수 있다. 특정한 몸짓을 보이거나 또렷하게 말할 필요도 없다. 작은 소리로 평소처럼 말해도 언어 인식 결과를 얻을 수 있다”고 설명했다.

얼터에고 개발을 주도한 아르나브 카푸르 박사는 얼터에고 개발 계기에 대해 “지능 확장(Intelligence-augmentation,IA) 디바이스를 만드는 것이 목표다. 인간과 기계를 결합하고 인간의 인지 능력을 확장하는 컴퓨팅 플랫폼을 만들 수 있을까가 출발점이었다”라고 말했다.

파티에 매어스 연구 자문 위원은 "우리는 휴대폰 없이 살 수 없지만 때로 이는 일상에 방해가 된다. 대화 중 검색할 것이 생기면 폰을 찾아서 비밀번호를 입력하고 앱을 열어 검색어를 쳐야 한다"라고 말하며, "이 모든 과정은 내 주위 환경과 대화하던 사람으로부터 주의를 돌려 집중할 수 없게 한다. 얼터에고와 같은 시스템은 사람들이 현실에 그대로 남아있으면서 뛰어난 지식 검색 서비스를 이용할 수 있도록 할 것"이라고 전했다.

국내에서 AI와 뇌공학 연구를 활발히 진행 중인 임창환 한양대 생체공학과 교수는 무성 언어 인식 AI 기술에 대해 “대중교통, 전쟁터와 같이 목소리를 듣기 힘든 장소에서부터 도서관과 같이 소음을 주의해야 하는 장소까지 활용할 장소는 무궁무진하다. 성대를 다쳐 목소리를 내기 힘든 환자에도 큰 도움이 될 것”이라고 말했다.

[관련기사] 키보드로 코딩하세요? 저는 말로 코딩해요!

'음성만으론 부족해~'... 사람 기분까지 알아채고 반응하는 ‘공감 AI’ 급부상

박성은 기자 AI는 마법이 아닌 과학입니다 sage@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기