딥페이크 비디오를 탐지하는 AI 신경망 모델 개발
표정 조작을 감지하고 지역화하는 프레임워크 제공
얼굴 및 표정 조작된 동영상을 99% 정확도로 감지

얼굴 표정 조작 감지 및 지역화를 위한 프레임워크.(사진=UC 리버사이드)
얼굴 표정 조작 감지 및 지역화를 위한 프레임워크.(사진=UC 리버사이드)

최대 99% 정확도로 딥페이크 비디오를 감지하는 새로운 기술이 나왔다. UC 리버사이드(University of California, Riverside)의 연구팀이 딥페이크 비디오에서 조작된 얼굴 표정을 감지해내는 심층 신경망 모델을 개발했다. 

딥페이크(Deepfake)란 인공지능(AI) 기술인 딥러닝(deep learning)과 ‘가짜’를 의미하는 단어인 페이크(fake)의 합성어로 AI 기술을 이용한, 진위 여부를 구별하기 어려운 가짜 이미지나 영상물을 뜻한다. 

생성 모델(Generative Model)의 발전으로 딥페이크는 사람의 얼굴을 다른 사람으로 쉽게 바꾸거나 표정을 변경할 수 있을 정도로 합성이 더 쉬워지고 실제와 구별하기가 더 어려워졌다. 한편으로 딥페이크 기술이 비디오를 조작해 악의적으로 사용되는데 대한 우려도 커지고 있다.

의사 소통에서 얼굴 표정의 중요성은 널리 알려져 있으며 이미지나 비디오의 표정이 개인의 원래 표정인지 조작된 것인지 판별하는 것이 필요하다. 따라서 얼굴 표정의 조작을 감지하고 조작된 영역을 지역화할 수 있는 방법을 개발하는 것이 중요하다.

UC 리버사이드의 연구팀은 변경된 이미지 내의 특정 영역을 감지하고 지역화(localization)할 수 있는 얼굴 표정 조작 감지(EMD, Expression Manipulation Detection)라고 하는 프레임워크를 구축했다.

EMD는 조작 감지를 위해 2개의 스트림 네트워크를 사용한다. 첫번째 스트림은  얼굴 표정을 식별하고 입, 눈 또는 이마와 같이 표정을 포함하는 영역에 대한 정보를 추출하는 얼굴 표정 인식(FER, Face Expreesion Recognition)이다. FER 스트림은 표정을 나타내는 얼굴 영역에 대한 특징 정보를 제공한다.

특히 FER을 통해 조작 감지에 중요한 판별 이미지 영역을 식별하는 CAM(Class Activation Map)을 생성할 수 있다. 표정 변화 감지를 위해 표정에 대한 정보로 얼굴 영역을 지역화할 수 있는 네트워크를 추가하면 조작 감지가 더 잘 수행될 수 있다. 표정 변화는 주로 눈, 입, 눈썹 주변에서 일어난다. 

두 번째 스트림은 조작 감지(manipulation detection) 및 지역화를 담당하는 인코더-디코더(encoder-decoder) 아키텍처다. 인코더는 FER 시스템의 특징이 결합된 저차원 공간에 이미지를 투영한 다음 디코더를 사용해 얼굴 이미지의 조작된 영역을 예측한다.

표정 조작 감지 및 위치 파악을 위해 제안된 접근 방식을 나타낸다. FER 시스템에서 추출된 기능과 조작 감지 스트림에서 추출한 기능은 조작된 영역의 픽셀 단위 지역화를 위해 디코더에 입력된다.(사진=UC 리버사이드)
표정 조작 감지 및 위치 파악을 위해 제안된 접근 방식을 나타낸다. FER 시스템에서 추출된 기능과 조작 감지 스트림에서 추출한 기능은 조작된 영역의 픽셀 단위 지역화를 위해 디코더에 입력된다.(사진=UC 리버사이드)

얼굴 조작에 대한 벤치마크 데이터 세트는 소스 비디오의 표정 또는 얼굴을 변경해 대상 비디오로 전송한다. 두 가지 얼굴 조작 데이터 세트에 대해 EMD는 표정 조작 뿐 아니라 얼굴 변경을 감지하는데 기존 감지 기술보다 더 나은 성능을 보였다. EMD는 조작된 동영상의 99%를 정확하게 감지했다. 일반적으로 얼굴이 바뀌었을 때보다 표정만 바뀐 얼굴을 식별하는 것이 더 어렵고, 현재까지 신뢰할 수 있는 기술이 없었다.

1열과 2열은 각각 원본 이미지와 조작된 이미지를 보여준다. 3열의 흑백 이미지는 원본 이미지의 마스크이고, 4열은 데이터세트에서 조작된 이미지에 대한 예측 마스크다. 5열은 표정을 판별하는 이미지 영역을 식별하는 CAM이다.(사진=UC 리버사이드)
1열과 2열은 각각 원본 이미지와 조작된 이미지를 보여준다. 3열의 흑백 이미지는 원본 이미지의 마스크이고, 4열은 데이터세트에서 조작된 이미지에 대한 예측 마스크다. 5열은 표정을 판별하는 이미지 영역을 식별하는 CAM이다.(사진=UC 리버사이드)

이 기술은 ‘Detection and Localization of Facial Expression Manipulations’ 제목의 논문으로 2022년 컴퓨터 비전 응용 학회( 2022 Winter Conference on Applications of Computer Vision)에 발표됐다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]진짜와 가짜 얼굴 구별할 수 있나? AI 합성 얼굴 구별 어려워

[관련기사][AI티타임] 오픈AI가 개발한 달리2 "좋지만 위험해"

키워드 관련기사
  • “인간 닮은 AI, 편견도 닮아”…편향 부추기는 AI
  • "합성 얼굴도 뽀샵해"...아마존, GAN 생성 이미지 제어 기술 공개
  • “해리포터가 내 곁에”...실물로 찾아온 상상 속 캐릭터