바이트댄스가 사진 한장으로 영화 속 배우들의 연기를 그대로 재현하는 동영상 생성 인공지능(AI) 도구를 공개했다. 특히 자회사인 틱톡의 방대한 비디오를 학습, 다른 모델보다 뛰어난 성능을 발휘한다는 것을 강조했다.
비이트댄스는 7일(현지시간) 얼굴 사진과 연기 영상를 입력하면 사진 속 인물이 영상과 똑같은 모습으로 말하는 비디오 생성 도구 ‘X-포트레이트 2(X-Portrait 2)’를 공개했다.
즉, 사진 한장으로 유명 영화의 장면을 그대로 재현한 영상을 생성할 수 있다. 사진 속 인물이 원본 영상의 섬세한 표정까지 포착하며, 훈련된 배우처럼 두려움과 분노, 기쁨 등의 감정을 동일한 수준의 설득력 있는 디테일로 표현할 수 있게 됐다는 설명이다. 물론 사진 속 인물의 정체성과 특성은 그대로 유지된다.
사진 한장으로 동영상을 만드는 애니메이션 AI 소프트웨어는 이전에도 출시됐다. 하지만 기존 도구는 얼굴 특정 지점을 추적하고 이를 적용하는 전통적인 방법을 사용한다. 즉, 점을 연결해 표정을 만드는 방식이다.
반면 X-포트레이트 2는 전체적인 얼굴 움직임을 관찰하고 학습한다. 따라서 빠른 말투나 다양한 각도에서 촬영된 얼굴 근육의 자연스러운 흐름, 미세한 눈 움직임, 그리고 인간 얼굴의 독특한 표현력을 만들어내는 복잡한 표정까지 포착한다.
이를 위해 바이트댄스는 대규모 데이터셋을 기반으로 훈련, 입력된 미세한 표정까지 인코딩하는 '표정 인코더 모델'을 개발했다. 이는 확산 모델과 결합돼 유동적이고 표현력 있는 영상을 생성한다.
배우의 미세한 얼굴 표정을 전달하는 것뿐만 아니라, 입술을 내밀거나, 혀를 내밀거나, 볼을 부풀리거나 찡그리는 등의 어려운 표정도 처리할 수 있다. 표정 인코더를 훈련할 외형과 움직임을 분리, 인코더가 연기 영상에서 표정 관련 정보에만 집중하도록 했다.
실사뿐만 아니라 애니메이션 이미지에도 적용 가능하다. 이로 인해 실제 세계의 스토리텔링, 캐릭터 애니메이션, 가상 에이전트, 시각 효과 등 다양한 사용 사례에 적용할 수 있다.
바이트댄스는 이 모델이 "최근 출시된 런웨이의 ‘액트-원(Act-One)’과 유사하지만, 빠른 머리 움직임과 미세한 표정 변화, 강한 개인적 감정을 더 충실하게 되살릴 수 있다"라고 강조했다. 이는 애니메이션 및 영화 제작과 같은 고품질 애니메이션 콘텐츠 제작에 있어 매우 중요한 부분이라고 전했다.
특히 매일 10억개 이상 생성되는 자회사 틱톡의 사용자 비디오에서 방대한 양의 얼굴 표정, 움직임, 감정 데이터로 학습한 것을 강점으로 꼽았다. 다른 회사들이 제한된 데이터셋이나 합성 데이터를 사용하는 반면, 바이트댄스는 다양한 얼굴과 조명 조건, 카메라 각도 등에서 캡처된 실제 표정을 바탕으로 AI 모델을 세밀하게 조정할 수 있다고 강조했다..
다만 바이트댄스는 이 도구를 비공개로 유지한다고 밝혔다. 이는 도구가 무단으로 영상을 생성하거나 오해를 불러일으킬 수 있는 콘텐츠를 만드는 데 악용될 수 있다는 점을 우려해서라는 이유다.
박찬 기자 cpark@aitimes.com
