지난 2019년 출시 당시 딥페이크 오용 가능성 제기돼
2년 뒤 화자 목소리 유지하면서 합성 방지 논문 공개
소스음성 인코더·음소 해독기·신디사이저로 구성
어텐션 모듈, 데이터 비트 가중치 계산해 출력 생성

(사진=셔터스톡).
(사진=셔터스톡).

구글이 사람의 목소리를 다른 언어로 직접 번역하는 AI 시스템 트랜스레이토트론2(Translatotron2) 관련 논문을 발표했다. 트랜스레이토트론2는 지난 2019년 구글이 출시한 트랜스레이토트론의 후속 모델. 텍스트가 아닌 음성 그대로 번역하는 획기적인 기술이지만 동시에 딥페이크에서 오용될 가능성도 존재했다. 이에 구글은 원래 화자의 목소리를 유지함으로써 딥페이크 합성을 방지하는 해결책을 제시하는 논문을 발표한 것.

지난 23일(현지시간) 기술매체 벤처비트 보도에 따르면 구글은 트랜스레이토트론2 공개를 앞두고 번역 품질을 높였다. 원(original)음성에서 들리는 숨소리나 웅얼거림을 번역하지 않고 자동으로 줄여준다. 이는 트랜스레이토트론 첫 번째 버전과 비교해 가장 큰 차이다. 사람의 말소리에서 정확한 핵심 단어만 빼내 원하는 외국어로 바꿔 제공한다.

트랜스레이토트론2 구성과 운영방식은 다음과 같다. 연구진은 논문에서 이 기능이 소스(원래) 음성 인코더·타깃 음소 해독기·신디사이저로 구성돼 어텐션 모듈을 통해 연결된다고 설명했다. 여기서 음소란 단어 뜻을 구별하는 언어단위를 일컫는다. 어텐션 모듈은 모든 데이터 조각에 대해 인코더·디코더 프로세스 과정에서 데이터 비트 가중치(weigh)를 고려해 출력을 생성한다.

인코더가 각 문장을 나눠 숫자로 계산하는 사이 디코더는 번역될 음성에 해당하는 음소 시퀀스를 예측한다. 신디사이저는 디코더의 출력과 어텐션 모듈의 콘텍스트 출력도 입력(input)으로 가져와 변환된 음성을 합성한다. 콘텍스트는 텍스트와 달리 말이나 글에서 시간적 상황과 그에 따른 뉘앙스까지 담긴 문장의 맥락을 뜻한다.

트랜스레이토트론 사용 시 가장 우려되는 점은 이 시스템이 전혀 다른 화자의 음성으로 목소리를 내는 것이었다. 이에 연구진은 화자를 식별하기 위해 명시적 ID에 의존하지 않는 새로운 방법의 음성 재훈련을 개발했다. 논문에 따르면 이는 딥페이크 접근을 차단하고 생산환경을 더욱 적합하게 만든다고 한다.

구글 연구진은 “업그레이드된 트랜스레이토트론2를 통해 향후 딥페이크를 방지하고, 고객 개인정보를 보호하길 희망한다”고 밝혔다.

딥페이크 위협은 지속적으로 UP!

한편, 네덜란드 소재 팁페이크 탐지 기술업체 ‘딥트레이스’에 따르면 2019년 10월부터 2020년 6월까지 딥페이크 수는 330% 증가해 최고치인 5만 건을 넘어섰다. 또 올해 초 어테스티브(Attestiv)가 발표한 설문조사에서는 30%도 안 되는 기업들이 딥페이크 피해를 막기 위한 조치를 취했다고 밝혔다. 비슷한 시기 미 FBI는 딥페이크가 기업을 겨냥한 새로운 위협이라고 경고했다.

딥페이크는 선거 기간 동안 가짜 영상을 제작해 여론을 흔들거나 배우들의 포르노 데이터 제작, 에너지 생산지를 사취하는 데에도 악용되고 있다. 미디어 세대 기술이 계속 발전함에 따라 딥페이크와의 싸움은 여전히 현재진행형일 것으로 보인다.

AI타임스 박혜섭 기자 phs@aitimes.com

 

[관련기사] 엔씨소프트, 국내 게임사 최초로 실시간 'AI 번역' 엔진 개발

[관련기사] 구글 라이브 음성 인식 번역 서비스 성능 개선, 업데이트!

키워드 관련기사
  • [생초보를 위한 AI진입가이드] 딥러닝과 트랜스포머는 알고가자
  • “그 목소리가 AI였다니”...다큐멘터리 속 스타 셰프 목소리 딥페이크 응용 내레이션 논란
  • AI가 만든 가짜 뉴스, AI가 잡는다...정책 변화 등 인간적인 노력도 필요