음성 대 음성 동시통역 시스템

메타의 호키엔 번역기는 최초의 동시통역 번역기지만 AI는 한 번에 한 문장만 번역할 수 있다.(사진=메타)
메타의 호키엔 번역기는 최초의 동시통역 번역기지만 AI는 한 번에 한 문장만 번역할 수 있다.(사진=메타)

문자 없는 언어를 다른 언어로 실시간 번역하는 AI 시스템이 나왔다. 

메타는 문자가 없는 언어인 ‘호키엔(Hokkien)’을 위한 최초의 인공지능(AI) 기반 실시간 음성 대 음성 번역(speech-to-speech translation) 시스템을 구축했다고 19일(현지시간) 블로그에 밝혔다. 호키엔은 중국, 대만, 싱가포르, 말레이시아 및 필리핀과 같은 국가에서 약 4900만 명이 사용하는 언어다. 

대부분의 실시간 번역 AI 기술은 주석이 달린 훈련 데이터 데이터 수집이 가능한 문자가 있는 언어를 대상으로 한다. 그러나 호키엔과 같은 방언은 문자가 없고 말을 하는 사람도 많지 않다. 이로 인해 방대한 데이터 모델을 구축하기가 매우 어렵다.

메타는 호키엔과 유사한 만다린 중국어를 중간 언어로 사용해 초기 모델을 구축했다. 메타는 호키엔어을 영어로 번역하기 위해 먼저 호키엔어 음성을 만다린어로 번역한 다음 영어로 번역했다. 또 AI 모델 훈련을 위해 호키엔어 음성과 만다린어의 쌍으로 데이터 세트를 구축했다. 

문자 없는 언어를 위한 AI 기반 음성 번역 모델  '유니트Y' 아키텍처 (사진=메타)
문자 없는 언어를 위한 AI 기반 음성 번역 모델  '유니트Y' 아키텍처 (사진=메타)

일반적으로 음성 대 음성 번역은 먼저 입력 음성을 해당 언어의 문자 텍스트로 변환한 다음 대상 언어의 문자 텍스트로 번역하고 마지막으로 번역된 텍스트를 음성으로 전환한다. 

메타는 문자가 없는 호키엔어 입력 음성을 중간 언어인 만다린어로 변환했다. 이를 위해 메타는 음성 대 단위(speech-to-unit) 번역을 사용해 호키엔어 입력 음성을 일련의 음향 단위로 나누고 단위별로 파형을 생성한 다음 단위별 파형을 만다린어의 텍스트로 변환하고 최종적으로 만다린어를 영어로 번역했다.

반대로 영어를 호키엔어로 번역할 경우는 먼저 영어를 만다린어로 번역한 다음 만다린어 텍스트를 일련의 호키엔어의 단위로 변환해 호키엔어 음성으로 출력한다.

문자 없는 언어를 위한 최초의 AI 기반 음성 번역 시스템 (영상=메타)

모델은 아직 완성단계가 아니다. 텍스트 대 음성(text-to-speech) 변환을 허용하는 중간 언어가 있는 언어에서만 작동한다. 연결될 수 있는 유사한 언어가 없는 언어는 이 새로운 모델을 쉽게 활용할 수 없지만 이 모델은 범용 번역을 위해 더 많은 수의 새로운 언어에 적용될 수 있다.

메타는 AI 실시간 번역 기능을 구축하기 위해 사용할 수 있도록 모델, 코드 및 벤치마크 데이터를 모두 공개했다.

현재는 한 번에 한 문장만 번역할 수 있지만 동시통역을 향한 첫 발걸음이다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • 오픈AI, 오픈소스 다국어 음성인식 ‘위스퍼’ 공개
  • 아마존, 다국어 언어 모델 AlexaTM 공개
  • 메타, 200개 언어를 실시간 번역하는 AI 모델 출시