언어를 자동 감지해 번역하는 USM 모델

(이미지=셔터스톡)
(이미지=셔터스톡)

구글이 100개 이상의 언어를 자동으로 감지해 번역해 주는 인공지능(AI) 모델을 공개했다. 지난해 11월 발표한 '1000개 언어 자동 번역'이라는 목표에 한 발 다가선 성과다.

구글이 6일(현지시간) 블로그를 통해 100개 이상의 언어를 자동 번역할 수 있는 대형 언어모델 'USM(Universal Speech Model)'을 개발, 유튜브 자막 생성에 활용하고 있다고 밝혔다. 

이 AI는 300개 이상의 언어에 대해 1200만 시간의 음성과 280억개 문장으로 학습한 매개변수 20억개의 대형 음성 모델이다. 자동음성인식(ASR)을 지원한다.

USM이 번역할 수 있는 언어는 영어와 만다린어 같이 많은 인구가 사용하는 언어도 있지만 암하라어(에티오피아), 세부아노어(남부 필리핀), 아삼어(인도 북동부 지역), 아제르바이잔어 등 사용인구가 적은 언어(2000만명 이하)도 포함됐다.

(이미지=구글 블로그)
(이미지=구글 블로그)

구글측은 "레이블이 지정되지 않은 대규모 다국어 데이터 세트를 활용해 모델의 인코더를 사전 훈련하고 더 작은 레이블이 지정된 데이터 세트를 미세 조정하면 소수 사용 언어도 인식할 수 있다"고 설명했다.

구글은 앞으로 자동번역모델을 증강 현실(AR) 안경에도 적용할 계획이다. 지난해 개발자 컨퍼런스인 I/O에서 이런 응용사례를 발표했다. 하지만 당시 AR 안경에서 구글 번역기는 아랍어를 잘못 번역해 기술 수준이 아직 낮은 것으로 평가됐다.

페이스북의 모기업 메타도 지난해 10월 200개 이상의 언어를 자동번역하는 모델을 발표했다. 메타 역시 AI 음성 번역기를 가상현실(VR)이나 AR 환경에서 적용하겠다는 목표를 갖고 있다. 하지만 메타의 모델도 소수 인구의 언어는 번역 품질이 낮다는 평가를 받았다.

정병일 위원 jbi@aitimes.com

키워드 관련기사
  • 구글, 음성번역 기술 ‘트랜스레이토트론2’ 새 버전 공개...딥페이크 차단 구조 보완
  • 메타, 문자없는 언어를 번역하는 AI 공개
  • 아마존, 다국어 언어 모델 AlexaTM 공개