중국에서 오픈AI의 '소라'에 도전하는 또 하나의 동영상 생성 AI가 등장했다. 이번에는 중국 대표 AI 스타트업 중 하나인 지푸 AI(Zhipu AI)가 주인공이다.
사우스차이나모닝포스트(SCMP)는 27일 지푸가 텍스트와 이미지 프롬프트로 30초 만에 6초 분량의 비디오를 생성할 수 있는 '잉(Ying, 影)' 모델을 출시했다고 보도했다.
이에 따르면 잉은 3D 애니메이션이나 시네마틱, 유화 스타일 등 다양한 옵션은 물론, 긴장감이나 생동감, 외로움과 같은 감정적 테마를 추가할 수 있다.
특히 지푸는 이를 공식 웹사이트와 모바일 앱에서 무제한 즉시 사용할 수 있다고 밝혔다. 기업이나 개발자는 API를 활용할 수 있다. 하지만 무료 버전은 사용량이 몰리면 대기 시간이 길어질 수도 있다고 전했다.
이 모델은 2021년부터 개발해 온 비디오 모델 '코그비디오(CogVideo)'와 '릴레이 디퓨전(Relay Diffusion)' 등 자체 기술을 기반으로 했다고 설명했다. 이를 바탕으로 업그레이드한 '코그비디오X'가 기반 모델이다.
콘텐츠 일관성 문제를 해결하기 위해 3D VAE(Variational Autoencoder) 아키텍처를 개발, 비디오 데이터를 원래 크기의 2%로 압축해 훈련 비용과 시간을 크게 줄였다고 밝혔다.
특히 장펭 지푸 CEO는 "오픈AI의 소라가 사용하는 '확산 변환기(DiT)' 아키텍처에서 영감을 얻었다"라며 "추론 속도가 개선, 더 빠른 비디오 생성이 가능하다"라고 말했다.
이는 텍스트와 시간, 공간을 단일 3차원 융합으로 통합하는 트랜스포머 아키텍처로, 기존의 교차 어텐션 모듈을 버리고 텍스트와 비디오 모달리티 간의 정렬을 달성하기 위한 방식이다. 또 풀 어텐션(Full Attention) 메커니즘을 통해 모달리티 간 상호 작용 효과를 최적화했다고 설명했다.
또 더 긴 영상을 생성하기 위해 기술을 고도화하고 있다고 덧붙였다.
유튜브와 X(트위터) 등을 통해 공개된 영상은 최근 등장한 도구들보다 특별히 뛰어난 퀄리티는 아닌 것으로 보인다. 하지만 즉시 사용할 수 있다는 점과 생성 시간이 짧다는 점은 좋은 반응을 얻고 있다.
지푸는 중국 최대 음식배달 업체 메이투안의 지원을 받는 스타트업으로, 지난해 출시한 '챗GLM'은 바이두나 바이트댄스, 텐센트 등 빅테크의 챗봇보다 뛰어나다는 평가를 받아 화제가 됐다. 이어 텐센트와 알리바바 등으로부터 4600억원을 투자받는 등 '중국의 오픈AI'라는 별명도 얻었다.
한편 이에 앞서 인기 동영상 AI '클링'을 내놓은 콰이쇼우는 24일 유료 서비스 출시한다고 발표했다.
이에 따라 무료 사용자는 하루 6개의 비디오를 생성할 수 있으며, 연간 396위안(약 7만5500원)과 3996위안(약 76만2000원)으로 하루 최대 60개와 800개의 비디오를 생성할 수 있는 요금제를 도입했다.
임대준 기자 ydj@aitimes.com
- 중국 벤치마크서 'GPT-4' 1위...중국산 1위는 '4마리 AI 호랑이' 지푸
- "중국 챗봇, GPT-4 수준 따라잡아...그중 1등은 지푸"
- 중국, 동영상 생성 모델도 검열..."시진핑 비디오 생성 불가능"
- 동영상 AI '클링' 등장에 SNS 들썩..."미국에도 빨리 출시하라"
- 미국에 도전하는 중국의 AI 영상 퀄리티
- 중국 센슈, 3초 만에 4초 영상 생성하는 '비두' 영어판 글로벌 출시
- 중국, 비디오 생성 AI '러시'...바이트댄스·알리바바도 '소라' 라이벌 합류
- 중국 게임사 쿤룬, 미니 드라마 제작용 AI 출시..."소라보다 긴 3분 영상 생성"
- 핫샷, 새로운 동영상 생성 AI 공개...'소라' 도전자 합류
- 지푸 AI, 동영상 생성 도구 오픈 소스로 공개..."동영상 기술 지각 변동 일어날 것"
- 지푸, 모바일용 AI 에이전트 개발...중국도 AI 에이전트 추격
- 중국서 최고 수준 '물리적 움직임' 구현하는 동영상 모델 출시
