피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)

중국 연구진이 최대 10초 길이의 고품질 비디오 클립을 빠르게 생성하는 동영상 생성 모델을 오픈 소스로 출시했다. 여기에는 '클링'으로 인기를 끈 콰이쇼우 개발자가 포함된 것이 눈에 띈다.

벤처비트는 10일(현지시간) 콰이쇼우와 북경대, 북경우편통신대 연구진 등이 새로운 오픈 소스 동영상 생성 모델 ‘피라미드 플로우(Pyramid Flow)’를 출시했다고 보도했다.

피라미드 플로우 모델은 'LAION-5B' 등의 오픈 소스 데이터셋으로 학습했으며, 최대 768p 해상도와 초당 24프레임으로 5~10초 길이의 비디오를 생성할 수 있다. 5초 길이의 384p 비디오를 56초 만에 생성할 수 있다.

피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)

단일 AI 모델이 비디오를 단계적으로 생성하는 피라미드 플로우 매칭(pyramidal flow matching) 기술을 활용한 것이 특징이다.

영상 생성 과정에서 대부분은 저해상도로 생성되며, 마지막 단계에만 전체 해상도 버전을 저장한다. 이 방법은 단계의 계산 비용을 대폭 줄이면서도, 높은 시각적 품질을 유지할 수 있다는 장점이 있다.

또 영상 생성 과정을 일련의 피라미드 단계로 완료한다. 이를 통해 전통적인 확산 모델(diffusion model)에 비해 토큰 수를 4배 줄여 효율적인 훈련이 가능하다.

아직 피라미드 플로우를 테스트할 수 없다. 하지만 연구진이 게시한 비디오는 매우 사실적이고 해상도가 높으며 매력적이라는 평이다. X(트위터)에는 런웨이나 루마 AI 등의 폐쇄형 모델의 품질과 유사하다는 말도 나왔다.

다만, 메라 각도와 키프레임, 인간 제스처와 같은 영화적 요소를 제어하는 옵션을 지원하지 못하는 것이 차이점이다.

현재 피라미드 플로우는 허깅페이스깃허브에서 다운로드해 사용할 수 있다. 상업적 용도로도 활용 가능하다.

피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)
피라미드 플로우 생성 비디오 (사진=깃허브)

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지