아마존 음성 인식 스피커 알렉사가 최근 종단 간 모델(End-to-end model)을 도입해 음성 인식 기능을 개선했다. 해당 모델 도입으로 아마존은 알렉사 풋프린트(Footprint)를 줄여 음성 인식 정확도를 25%까지 향상시켰다.
벤처비트는 아마존이 알렉사 음성 인식 기능 향상을 위해 최근 종단 간 모델(End-to-end model)을 도입했다고 22일(현지시각) 보도했다. 알렉사는 종단 간 모델 도입으로 음성 입력·출력·전사까지 전체 음성 인식 프로세스를 장치 자체에서 수행할 수 있게 됐다.
종단 간 모델을 사용하지 않았던 이전 알렉사 버전에서는 음성 입력값을 음향, 언어와 같은 여러 구성 요소로 나눠 각각을 별도 모델로 처리했다. 엄청난 양의 메모리가 필요했고 수 기가 바이트 크기 모델을 사용했다. 방대한 모델 크기 문제로 독립형 장치에 설치하는 대신 클라우드에서 데이터를 처리했었다. 새 알렉사 버전에서는 음성을 하나의 응집력있는 개체로 처리할 수 있으며 모델 크기도 크게 줄였다.
셰자드 메바왈라(Shehzad Mevawalla) 아마존 자동 음성 인식 책임자는 벤처비트와의 인터뷰에서 “엔드 투 엔드 모델을 사용하면 결합 신경망 하나로 프로세스를 처리할 수 있다. (사용 모델 크기가) 기가 바이트에서 100 메가 바이트까지 줄었다. 이를 통해 매우 제한된 공간에서도 작업을 실행할 수 있게 됐다”고 설명했다.
특히 종단 간 모델은 응답 내용을 개인화하기 위해 개별 화자를 식별하는 알렉사 화자 ID 기능을 개선시켰다. 특히 내추럴 턴 테이크(Natural Turn Take) 기능을 강화했다. 이 기능은 모든 발화 내용에 대해 깨우기 단어(wake word)를 사용하지 않고도 여러 사람이 알렉사와 대화할 수 있게 한다. 주기적으로 발생하는 배경 소음에서 알렉사 요청을 필터링하고 카메라를 사용해 발표자가 자신의 댓글을 알렉사로 전달하는지, 혹은 특정인이나 다른 장치로 전달하는지 확인할 수 있다.
개선된 알렉사 화자 ID는 2개 알고리즘 접근 방식으로 텍스트 종속 모델과 텍스트 독립 모델을 결합한다. 텍스트 종속 모델은 사용자가 미리 말하는 내용을 파악해 음성 매칭에 사용하고 텍스트 독립 모델은 말한 내용과 관계없이 음성과 화자를 매칭한다.
메바왈라는 “알렉사는 미세 조정 프로세스를 통해 음성 인식 정확도를 높일 수 있었다. 알렉사는 다양한 음향 컨디션, 언어 변동 및 악센트에 맞게 조정하는 ‘교사’ 모델을 사용한다. 이 모델은 수백만 시간의 데이터로 훈련했으며 국가별로 다른 배경 소음, 화법 등을 반영한다”고 말했다.
그는 “알렉사가 수천만 대 장치를 이용하는 만큼 확실히 도전적인 과제였다. 작년에 처리 가능한 데이터 양을 개선했다. 이후 최대 25% 정확도를 기록했다”고 전했다.
