중국에서 '소라'의 라이벌을 자처하는 동영상 생성 인공지능(AI)이 등장했다. 한번 클릭으로 16초짜리 1080P 비디오를 생성할 수 있다는 이 모델은 소라와 흡사한 기술을 사용하는 것으로 알려졌다.
신화통신은 27일 칭화대학교와 중국 기업 센슈AI가 베이징에서 열린 중관춘 포럼에서 '비두(Vidu)'라는 동영상 생성 AI를 공개했다고 보도했다.
이에 따르면 칭화대 등은 이날 현장에서 라이브 시연을 통해 비두가 사실적인 빛과 그림자 효과, 섬세한 표정 등 물리적 법칙에 따라 복잡한 세부 묘사가 포함된 장면을 생성할 수 있다고 주장했다.
또 중국 문화 요소에 대한 깊은 이해를 바탕으로 디자인. 판다나 신화 속의 용 등 중국의 상징적인 비주얼을 생성할 수 있다고 강조했다.
연구진은 비두는 확산(Diffusion) 모델과 트랜스포머 아키텍처를 통합한 '유니버셜 비전 트랜스포머(U-ViT)'라는 시각 변환 모델 아키텍처를 기반으로 한다고 설명했다.
이는 소라와 흡사하다. 오픈AI도 디퓨전 모델의 노이즈 모델링을 통한 고품질 샘플 생성과 트랜스포머의 모델링 성능을 결합한 '비전 트랜스포머(ViT)’ 아키텍처를 고도화했다.
주 준 칭화대 AI 연구소 부원장이자 센슈AI 수석 과학자는 "소라가 출시된 뒤 우리의 기술 로드맵과 밀접하게 일치한다는 것을 알았다"라며 "이는 우리가 결단력 있게 연구를 발전시키려는 동기를 더욱 부여했다"라고 밝혔다.
이들은 U-ViT의 핵심 기술인 비전 트랜스포머 아키텍처를 오픈AI보다 먼저인 2022년 9월 처음 제안했다고 주장했다. 하지만 비전 트랜스포머는 구글 딥마인드가 이미 2021년 아카이브에 논문으로 처음 소개한 방식이다.
한편 이번 발표는 지난 2월15일 소라가 공개된 지 약 두달 만에 나온 것이다.
중국은 그동안 소라로 인해 미국에 AI 기술이 크게 뒤처지는 것이 아니냐는 우려가 제기됨과 동시에 관련 기술 개발로 떠들썩했다. 비두를 내놓은 칭화대는 물론 베이징대학교, 바이트댄스 등 수많은 연구진이 소라 따라잡기에 나섰다고 공언해 왔다.
비두에 대한 반응은 그리 긍정적이지 않다. X(트위터)에 달린 댓글은 "아직 소라를 따라잡기에는 무리"라는 반응이 대부분이다.
또 소라와 아키텍처가 비슷하다는 말에 '체리 피커'라는 지적까지 나왔다. 즉 오픈AI의 연구 성과를 베꼈다는 비아냥이다.
박찬 기자 cpark@aitimes.com
- 중국서 '소라 따라잡기' 프로젝트 진행..."똑같은 품질 오픈 소스 내놓을 것"
- '소라' 정확도의 비밀 '시공간 패치'는 구글 기술 기반
- '스테이블 디퓨전 3' 공개..."소라와 비슷한 트랜스포머 아키텍처 도입"
- 중국, '소라' 등장에 충격..."중국은 미국의 '미세조정 버전'에 불과"
- 또 등장한 '소라'의 한계 지적..."디테일 부족으로 영화 제작은 시기상조"
- 크리에이티브 디렉터 세미나 개최...AI 시대 디자이너 혁신·생존 전략 모색
- 중국서 '소라' 버금가는 동영상 AI 등장..."1080p 2분짜리 영상 생성"
- 중국 센슈, 3초 만에 4초 영상 생성하는 '비두' 영어판 글로벌 출시
