매직비디오-V2 생성 비디오 (사진=바이트댄스)
매직비디오-V2 생성 비디오 (사진=바이트댄스)

틱톡의 모기업 바이트댄스가 텍스트를 기반으로 고품질 동영상을 생성하는 새로운 비디오 인공지능(AI) 개발했다. 틱톡과 도우인(Douyin), 중국 현지 소셜 미디어 등에 탑재, 숏폼 동영상 엔터테인먼트 시장을 장악하려는 의도다.

다크립트는 18일(현지시간) 바이트댄스가 텍스트에 충실하게 고품질 영상을 생성할 수 있는 생성 AI ‘매직비디오-V2(MagicVideo-V2)'를 공개했다고 보도했다.

매직비디오-V2는 텍스트를 이미지로 변환하는 'T2I(텍스트-이미지 변환)' 모듈, 이미지를 동영상으로 변환하는 'I2V(이미지-비디오 변환)' 모듈, 동영상의 해상도를 확장하는 'V2V(비디오-비디오 변환)' 모듈, 그리고 시퀀스를 확장하는 'VFI(비디오 프레임 보간)' 모듈 등을 단일 아키텍처로 결합했다.

먼저 입력된 텍스트를 기반으로 T2I 모듈이 1024×1024 픽셀 이미지를 생성한다. 이어 I2V 모듈로 이미지를 연속해 영상을 만드는 600×600 픽셀 이미지 32장을 생성하고, V2V 모듈로 1048×1048 픽셀 해상도로 확장한다. 마지막으로 VFI 모듈에서 시퀀스를 94프레임으로 확장한다.

매직비디오-V2 아키텍처 (사진=바이트댄스)
매직비디오-V2 아키텍처 (사진=바이트댄스)

바이트댄스에 따르면 약 60명의 블라인드 테스트에서 과반수 이상이 매직비디오-V2가 런웨이의 ‘젠-2’, 피카랩의 ‘피카-1.0’, 스태빌리티 AI의 ‘스테이블 비디오 디퓨전' 등 유명 동영상 생성 AI보다 ‘더 우수하다'는 평가를 내렸다고 전했다. 

또 "여러 모델을 한 번에 하나씩 연결하는 대신, 모듈을 단일 모델로 통합함으로써 더 나은 결과를 얻을 수 있었다"라고 주장했다.

한편 바이트댄스는 지난해 ‘리플(Ripple)’이라는 AI 기반 음악 생성기도 출시했다. 

사용자가 이런 도구를 사용해 비디오나 오디오를 쉽게 생성할 수 있게 되며, 틱톡은 숏폼 비디오 중심의 소셜 미디어에서 경쟁사들은 크게 앞지를 수 있다는 분석이 나온다. 

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지