(사진=셔터스톡)
(사진=셔터스톡)

올 초 오픈AI의 '소라(Sora)' 등장으로 충격에 휩싸였던 중국이 최근 비디오 생성 인공지능(AI)을 잇따라 출시하고 있다. 바이트댄스와 알리바바가 동시에 새로운 비디오 생성 AI 모델을 선보이는 등 최근 5개의 비디오 생성 모델이 공개됐다. 특히 그중 4개가 사용자 대상으로 정식 출시됐다.

로이터는 6일(현지시간) 틱톡의 모회사 바이트댄스가 새로운 텍스트-비디오 모델 ‘지멩 AI(Jimeng AI)’를 출시했다고 보도했다.

지멩 AI는 바이트댄스의 자회사인 페이스 테크놀로지가 개발했으며, 7월 31일 안드로이드 출시 이후 현재 중국 사용자들을 위해 애플 앱 스토어에서도 이용할 수 있다. 페이스 테크놀로지는 동영상 편집 앱 '캡컷(CapCut)'으로 잘 알려져 있다.

지멩 AI는 월 69위안(약 1만3000원), 연간 659위안(약 12만6000원)의 구독 서비스를 제공한다. 사용자들이 매달 약 2050개의 이미지 또는 168개의 동영상을 생성할 수 있다.

다만, 공개한 영상이 없어 퀄리티를 평가하기는 어렵다. 세부 내용도 특별한 사항은 눈에 띄지 않는다.

지멩 AI (사진=페이스 테크놀로지)
지멩 AI (사진=페이스 테크놀로지)

또 사우스차이나모닝포스트(SCMP)는 이날  알리바바가 비디오 생성 AI 모델 ‘토라(Tora)’를 아카이브에 논문을 통해 발표했다고 보도했다. 

토라라는 이름에서 알 수 있듯, 오픈AI가 '소라' 개발에 사용한 디퓨전 트랜스포머(DiT) 아키텍처를 기반으로 구축했다. 특히 원시 비디오를 고품질 비디오-텍스트 쌍으로 변환하고 광학 흐름 추정기를 활용해 궤적 추출을 추출했다.

이를 통해 생성된 비디오에 포함된 다양한 객체가 물리법칙에 맞춰 지정된 궤적을 따라 움직일 수 있다는 설명이다. 토라는 궤적, 이미지, 텍스트 또는 이 세가지의 조합에 따라 안내되는 비디오를 생성할 수 있다.

다만 토라가 언제 공개될지는 밝히지 않았다.

'토라' 이미지 생성 설명도 (사진=arXiv)
'토라' 이미지 생성 설명도 (사진=arXiv)

중국은 그동안 소라로 인해 미국에 AI 기술이 크게 뒤처지는 것이 아니냐는 우려가 제기됨과 동시에 관련 기술 개발로 떠들썩했다.

그러나 지난 6월 콰이쇼우의 '클링(Kling)'이 출시되며, 분위기가 변했다. 클링은 단일 프롬프트에서 초당 30프레임, 1080p의 최대 2분 분량의 비디오를 생성할 수 있다.

이어 스타트업 지푸 AI가 텍스트와 이미지 프롬프트에서 30초 만에 6초짜리 영상을 생성하는 '잉(Ying)' 모델을 웹사이트와 앱으로 출시했다.

또 센슈 AI는 한번 클릭으로 30초만에 4초와 8초짜리 1080P 비디오를 생성하는 텍스트-비디오 모델 ‘비두(Vidu)’를 출시했다. 비두도 소라의 DiT 아키텍처를 고도화했다.

이들 모두 현재 일반 사용자 대상으로 서비스 중이다. 이 때문에 중국에서는 소라보다 앞섰다고 자평하는 분위기다.

한편 이런 분우기에 맞춰 중국 사이버 공간 관리국(CAC)은 바이두, 알리바바, 텐센트와 같은 빅테크 기업과 HP를 포함한 일부 외국 기업 의 제품을 포함하여 딥페이크에 사용할 수 있는 487개의 AI 알고리즘을 무더기로 승인했다.

CAC는 심층 학습과 증강 현실을 사용하여 텍스트, 이미지, 오디오 및 비디오를 생성하거나 실제 생활에서 사람과 사물을 모방하는 가상 장면을 만드는 소위 딥페이크 기술을 규제한다. CAC에 알고리즘을 등록하지 못하면 중국 앱 스토어에서 제거될 수 있다.

새로 승인받은 주요 도구에는 바이트댄스의 중국 버전 틱톡인 '두인(Douyin)'을 위한 헬스케어 지식 알고리즘, 마이크로소프트(MS)의 AI 스핀오프 샤오이스의 음악 생성기, 넷이즈의 인기 파티 게임인 '베오울프(Werewolf)'의 디지털 버전을 위한 캐릭터 대화 생성기 등이 포함됐다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지