중국에서 오픈AI의 '소라'에 도전하는 또 하나의 동영상 생성 AI가 등장했다. 이번에는 중국 대표 AI 스타트업 중 하나인 지푸 AI(Zhipu AI)가 주인공이다.

사우스차이나모닝포스트(SCMP)는 27일 지푸가 텍스트와 이미지 프롬프트로 30초 만에 6초 분량의 비디오를 생성할 수 있는 '잉(Ying, 影)' 모델을 출시했다고 보도했다.

이에 따르면 잉은 3D 애니메이션이나 시네마틱, 유화 스타일 등 다양한 옵션은 물론, 긴장감이나 생동감, 외로움과 같은 감정적 테마를 추가할 수 있다.

특히 지푸는 이를 공식 웹사이트와 모바일 앱에서 무제한 즉시 사용할 수 있다고 밝혔다. 기업이나 개발자는 API를 활용할 수 있다. 하지만 무료 버전은 사용량이 몰리면 대기 시간이 길어질 수도 있다고 전했다.

이 모델은 2021년부터 개발해 온 비디오 모델 '코그비디오(CogVideo)'와 '릴레이 디퓨전(Relay Diffusion)' 등 자체 기술을 기반으로 했다고 설명했다. 이를 바탕으로 업그레이드한 '코그비디오X'가 기반 모델이다. 

콘텐츠 일관성 문제를 해결하기 위해 3D VAE(Variational Autoencoder) 아키텍처를 개발, 비디오 데이터를 원래 크기의 2%로 압축해 훈련 비용과 시간을 크게 줄였다고 밝혔다. 

특히 장펭 지푸 CEO는 "오픈AI의 소라가 사용하는 '확산 변환기(DiT)' 아키텍처에서 영감을 얻었다"라며 "추론 속도가 개선, 더 빠른 비디오 생성이 가능하다"라고 말했다.

이는 텍스트와 시간, 공간을 단일 3차원 융합으로 통합하는 트랜스포머 아키텍처로, 기존의 교차 어텐션 모듈을 버리고 텍스트와 비디오 모달리티 간의 정렬을 달성하기 위한 방식이다. 또 풀 어텐션(Full Attention) 메커니즘을 통해 모달리티 간 상호 작용 효과를 최적화했다고 설명했다.

또 더 긴 영상을 생성하기 위해 기술을 고도화하고 있다고 덧붙였다.

유튜브와 X(트위터) 등을 통해 공개된 영상은 최근 등장한 도구들보다 특별히 뛰어난 퀄리티는 아닌 것으로 보인다. 하지만 즉시 사용할 수 있다는 점과 생성 시간이 짧다는 점은 좋은 반응을 얻고 있다.

지푸는 중국 최대 음식배달 업체 메이투안의 지원을 받는 스타트업으로, 지난해 출시한 '챗GLM'은 바이두나 바이트댄스, 텐센트 등 빅테크의 챗봇보다 뛰어나다는 평가를 받아 화제가 됐다. 이어 텐센트와 알리바바 등으로부터 4600억원을 투자받는 등 '중국의 오픈AI'라는 별명도 얻었다.

한편 이에 앞서 인기 동영상 AI '클링'을 내놓은 콰이쇼우는 24일 유료 서비스 출시한다고 발표했다.

이에 따라 무료 사용자는 하루 6개의 비디오를 생성할 수 있으며, 연간 396위안(약 7만5500원)과 3996위안(약 76만2000원)으로 하루 최대 60개와 800개의 비디오를 생성할 수 있는 요금제를 도입했다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지