사진 한장으로 말하고 노래하는 영상 생성..."입 모양·표정·동작까지 연출"

임대준 기자
업데이트 2024.03.01 19:15
입력 2024.03.01 19:02
댓글 0

이 기사를 공유합니다

알리바바가 사진 한장으로 실감 나게 말하고 노래하는 영상을 생성하는 인공지능(AI) 시스템을 선보였다. 지난해 12월 공개해 극찬받았던 캐릭터 애니메이션 생성 AI의 후속작이다.

벤처비트는 28일(현지시간) 알리바바 지능형 컴퓨팅 연구소가 'EMO(Emote Portrait Alive)'라는 새 AI 프레임워크를 공개했다고 보도했다.

온라인 아카이브에 게재된 논문에 따르면 이 모델은 주어진 음성에 맞춰 정확한 입 모양을 생성하는 것은 물론 표정이나 머리 움직임 등까지 생성할 수 있다. 셀피는 물론 연예인 사진이나 만화, 그림 등 모든 사람 이미지를 원하는 언어나 노래에 맞춰 말하는 영상으로 바꿀 수 있다.

이와 관련, 전날에는 피카랩스가 동영상 생성 AI에 음성까지 추가할 수 있는 '립 싱크'라는 도구를 내놓았다. 이는 피카랩이 오픈AI '소라'에 대응해 내놓은 기능이다.

하지만 관련 커뮤니티에서는 EMO와 립 싱크를 비교하며 어느 쪽이 더 정교한지 비교하는 영상이 퍼져나가고 있다. EMO의 손을 들어주는 경우가 더 많을 정도로 반응이 뜨겁다.

또 연구진이 공개한 영상 중 소라가 생성한 비디오에 등장한 '도쿄 거리를 걷는 여성'과 똑같은 샘플이 포함된 것도 눈길을 끈다. 선글라스와 큰 귀걸이, 빨간 셔츠, 코트 등이 모두 일치한다.

앞서 알리바바는 지난해 12월 역시 사진 한장으로 풀모션 동영상을 생성하는 ‘애니메이트 애니원(Animate Anyone)’이라는 모델을 선보여 호평받았다. 이 모델은 기존 영상에서 인간의 몸짓과 움직임을 추출, 확산 모델(Diffusion Model)을 활용해 사진을 영상으로 만드는 방식으로, 기존의 사진-영상 변환 기술을 끌어올렸다는 평가를 받았다.