오픈AI의 '소라'나 런웨이의 '젠-3' 같은 폐쇄형 모델과 맞먹는 수준의 고품질 비디오를 오픈 소스 동영상 생성 인공지능(AI) 모델이 나왔다.
벤처비트는 22일(현지시간) 인공지능(AI) 스타트업 젠모(Genmo)가 텍스트 프롬프트에서 고품질 비디오를 생성할 수 있는 새로운 오픈 소스 모델 ‘모치 1(Mochi 1)’를 미리보기로 공개했다고 보도했다.
젠모는 모치 1이 젠-3 알파, 루마의 '드림 머신', 콰이쇼우의 '클링', 미니맥스의 '하이루오' 등 주요 비공개 폐쇄형 모델들의 성능을 능가한다고 주장했다. 현재 모치 1은 허깅페이스에서 전체 가중치와 모델 코드를 무료로 다운로드할 수 있다.
다만, 사용자 컴퓨터에서 작동하려면 최소 4개의 엔비디아 'H100' GPU가 필요해, 개인 사용자가 사용하는 것은 사실상 불가능하다. 대신 젠모는 사용자가 모치 1을 실험해 볼 수 있도록 호스팅 플레이 그라운드를 공개했다.
젠모는 모치 1이 최첨단 모션 품질과 세부적인 사용자 지침을 따르는 능력을 특징으로 꼽으며, 폐쇄형 비디오 생성 모델과의 격차를 줄이는 솔루션으로 포지셔닝하는데 초점을 맞췄다고 밝혔다.
유체의 흐름, 털과 머리카락의 흩날림, 가장 중요한 인간 움직임과 같은 물리학을 이해함으로써 현실적인 동작을 생성한다는 설명이다.
최대 5.4초 동안 초당 30프레임으로 매끄러운 비디오를 생성할 수 있다. 현재는 480 화소 영상을 생성하며, 720 화소 버전인 모치 1 HD는 올해 말 출시될 예정이다.
100억개의 매개변수로 지금까지 출시된 가장 큰 오픈 소스 비디오 생성 모델이다.
특히 새로운 비대칭 확산 트랜스포머(AsymmDiT) 아키텍처를 기반으로 구축, 텍스트 처리를 간소화하고 시각적인 부분에 집중함으로써 사용자 프롬프트와 압축 비디오 토큰을 효율적으로 처리할 수 있다고 전했다. 즉, 텍스트와 비주얼 토큰을 사용해 비디오를 구축하지만, 텍스트에 비해 비디오 데이터 처리에 전용된 매개변수가 4배 더 많다. 이런 비대칭 디자인을 사용하면 배포를 위한 메모리 사용량을 낮출 수 있다.
한편 최근에는 동영상 모델도 점차 오픈 소스화되는 추세다.
지난 8월에는 중국 지푸 AI와 칭화대학교 연구진이 텍스트-비디오 모델 ‘코그비디오X(CogVideoX)’를 오픈 소스로 출시한 바 있다. 일부 기술 회사들의 독점 영역이었던 동영상 생성 AI 기술도 이제 누구나 활용할 수 있도록 오픈 소스로 출시하는 분위기다.
박찬 기자 cpark@aitimes.com
