'제로 샷' 방식으로 비디오 일관성 유지...수 주 내로 출시 예정

기본 텍스트 프롬프트로 생성한 이미지(상단 2종), '포즈 콘트롤' 및 '엣지 콘트롤'과 결합한 프롬프트 생성물(우측 하단), '반 고흐' 스타일의 제로 샷 비디오(좌측 하단) (사진=픽스아트)
기본 텍스트 프롬프트로 생성한 이미지(상단 2종), '포즈 콘트롤' 및 '엣지 콘트롤'과 결합한 프롬프트 생성물(우측 하단), '반 고흐' 스타일의 제로 샷 비디오(좌측 하단) (사진=픽스아트)

모바일 사진·영상 편집기의 강자 픽스아트가 새로운 방식의 비디오 생성 인공지능(AI) 모델을 선보였다.

페타픽셀은 27일(현지시간) 픽스아트의 AI 연구팀이 텍스트 프롬프트만으로 새로운 비디오를 만들 수 있는 동영상 생성 AI 모델 '페어(PAIR)'를 개발, 깃허브와 허깅페이스에 오픈소스 데모로 공개했다고 보도했다.

픽스아트 연구팀은 트위터를 통해 "최근 텍스트-비디오 생성 접근 방식은 계산적으로 많은 훈련에 의존하며 대규모 비디오 데이터 세트가 필요하다"며 "대신 우리는 '제로 샷' 텍스트-비디오 생성이라는 새로운 방식을 사용했다"고 설명했다. 

제로 샷이란 AI 모델이 학습 과정에서 배우지 않은 작업을 수행하는 방법으로, '성능'을 높이기 위한 지도학습 방법이 아니라 데이터에 자체에 대한 '이해와 표현력'을 높이기 위한 비지도학습 및 자기지도학습 같은 기술을 말한다.

깃허브에 공개된 생성 동영상 '스키를 타고 활강하는 우주비행사' (사진=픽스아트) 
깃허브에 공개된 생성 동영상 '스키를 타고 활강하는 우주비행사' (사진=픽스아트) 
생성 동영상 '초원을 달리는 고양이' (사진=픽스아트)
생성 동영상 '초원을 달리는 고양이' (사진=픽스아트)

연구진이 이 방법을 도입한 것은 현재 텍스트-비디오 생성 AI는 생성된 피사체가 프레임마다 조금씩 다르게 보이고 배경도 일관성이 떨어지는 등 사실성이 부족하다는 게 문제로 꼽히기 때문이다.

따라서 '모션 다이내믹'이라는 기술로 프레임을 생성해 일관성을 유지, 그 결과 고품질의 일관된 비디오 생성을 가능하게 만들었다고 전했다.

연구진은 "실험에서 알 수 있듯이 우리의 방법은 추가 비디오 데이터에 대한 교육을 받지 않았음에도 불구하고 최근 등장한 방식보다 비교적 또는 때때로 더 나은 성능을 보인다"며 "이는 텍스트 프롬프트로 비디오를 만드는 것은 물론 기존 비디오를 특정 스타일로 변경하는 데에도 효과적"이라고 밝혔다.

픽스아트는 앞으로 몇 주 안에 이 제품을 출시할 계획이다.

 원본 백조 동영상(위)을 '반 고흐의 별이 빛나는 밤' 스타일로 변환한 결과 (사진=픽스아트)
 원본 백조 동영상(위)을 '반 고흐의 별이 빛나는 밤' 스타일로 변환한 결과 (사진=픽스아트)

동영상 생성 AI는 경쟁이 차츰 치열해지는 분야이기도 하다. 지닌해 말 구글은 '이매진'과 '페나키'를, 메타는 '메이커비디오'를 선보였다. 최근에는 스타트업 런웨이가 운본 동영상을 다른 스타일로 바꿔주는 멀티모달 기능의 '젠-2'를 공개했다. 

픽스아트는 전 세계 1억5000만명의 월간 활성 사용자(MAU)를 보유한 모바일 앱 'AI 포토&비디오 에디터'의 개발 업체다. 이 앱은 지난 3년간 누적 다운로드수에서 전 세계 앱 중 상위 20위 안에 들 정도로 큰 인기를 얻고 있다.

임대준 기자 ydj@aitimes.com

키워드 관련기사
  • 런웨이, 동영상 생성 AI '멀티모달'로 업그레이드
  • 런웨이, 비디오의 스타일을 변환하는 생성 AI ‘젠-1’ 출시
  • 메타, AI 비디오 생성기 ‘메이커비디오’ 공개