브이로거 (사진=구글)
브이로거 (사진=구글)

구글이 스틸 사진 한장으로 사람들이 말하고, 몸짓을 하고, 움직이는 모습을 실감나는 동영상으로 생성할 수 있는 새로운 인공지능(AI) 시스템을 선보였다.

벤처비트는 18일(현지시간) 구글이 ‘브이로거(VLOGGER)’라는 새 AI 프레임워크를 공개했다고 보도했다.

온라인 아카이브에 게재된 논문에 따르면 이 모델은 주어진 음성에 맞춰 정확한 입 모양을 생성하는 것은 물론 표정이나 머리 움직임, 손짓 등까지 생성할 수 있다. 셀피는 물론 연예인 사진이나 만화, 그림 등 모든 사람 이미지를 원하는 언어나 노래에 맞춰 말하는 영상으로 바꿀 수 있다. 

브이로거로 생성한 동영상은 일부 아티팩트가 있어 완벽하지는 않지만, 정지 이미지를 애니메이션화하는 기존의 사진-영상 변환 기술을 끌어올렸다는 평가를 받는다.

기존 영상에서 인간의 몸짓과 움직임을 추출, 확산 모델(Diffusion Model)을 활용해 사진을 영상으로 만든다. 80만개 이상의 다양한 인물 사진과 2200시간의 비디오로 구축된 대규모 데이터셋 ‘멘터(MENTOR)’를 활용, 다양한 인종, 연령, 의복, 포즈 및 주변 환경을 가진 사람들의 비디오를 생성하는 방법을 학습했다.

다만 브이로거에서 생성된 비디오는 상대적으로 짧고 정지된 배경을 가지고 있으며, 2D 환경에서만 작동하는 제약이 있다. 또 아직 실제 인간의 버릇과 말투와 구별할 수 없을 정도는 아니다.

브이로거 생성 비디오 (사진=구글)
브이로거 생성 비디오 (사진=구글)

하지만 연구진은 벤치마크에서 브이로거가 이미지 품질, 신원 보존 및 시간적 일관성 측면에서 기존의 최첨단 방법보다 훨씬 뛰어난 성능을 발휘했다고 전했다.

구글은 브이로거를 음성, 몸짓, 눈맞춤을 통해 인간과 자연스럽게 소통할 수 있는 '구체화된 대화 에이전트'를 향한 한단계 진전으로 자평했다. 

브이로거는 프리젠테이션, 교육, 나레이션, 저대역폭 온라인 커뮤니케이션을 위한 독립형 솔루션으로 사용될 수 있으며 텍스트 전용 인간과 컴퓨터 상호 작용을 위한 인터페이스로 사용될 수 있다.

이처럼 사용 용도가 늘어나며, 얼굴 사진을 움직이는 동영상으로 만드는 회사가 빠르게 늘어나고 있다. 

앞서 지난 1일 알리바바는 사진 한장으로 실감 나게 말하고 노래하는 영상을 생성하는 AI 시스템 'EMO(Emote Portrait Alive)'를 공개한 바 있다. 전날에는 피카랩스가 동영상 생성 AI에 음성까지 추가할 수 있는 '립 싱크'라는 도구를 내놓았다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지