알리바바가 최초로 전문가 혼합(MoE) 구조를 도입한 오픈 소스 비디오 생성 모델을 출시했다. 동영상 분야에서도 오픈 소스 최고 기업으로 발돋움하고 있다.

알리바바는 30일(현지시간) 전문가 혼합(MoE) 구조를 적용한 오픈 소스 비디오 생성 모델 ‘완2.2(Wan2.2)’를 공개했다.

적은 연산 자원으로 고품질 영상 생성이 가능하며, 텍스트·이미지 기반 영상 생성 모두를 단일 프레임워크에서 지원하는 것이 특징이다.

완2.2 시리즈는 ▲텍스트-투-비디오 모델 ‘완2.2-T2V-A14B’, ▲이미지-투-비디오 모델 ‘완2.2-I2V-A14B’, ▲두 작업을 모두 처리할 수 있는 하이브리드 모델 ‘완2.2-TI2V-5B’로 구성된다.

A14B 모델은 총 270억개의 매개변수를 갖추고 있지만, 실제 추론 과정에서는 두 전문가 중 하나만 활성화돼 단계마다 140억개의 매개변수만 작동하는 등 연산 효율을 극대화했다.

MoE 구조는 모델을 고잡음(high-noise)과 저잡음(low-noise) 전문가로 나누어, 영상 생성의 초기에는 전체 구도 중심의 고잡음 전문가를, 후반에는 디테일을 다듬는 저잡음 전문가를 각각 작동한다. 두 전문가의 전환 시점은 '신호대잡음비(SNR)'라는 수치를 기준으로 정해지며, 이 수치는 영상에서 노이즈가 줄어들수록 함께 낮아지도록 설정돼 있다.

완2.2는 고속 압축 성능으로도 주목받았다.

TI2V-5B 모델은 5초 길이의 720P 영상을 'RTX 4090'같은 일반 GPU 한 대에서 9분 이내에 생성할 수 있으며, 이는 업계에서 손꼽히는 속도다. 이 모델은 64배 압축을 가능하게 하는 완2.2-VAE 기반으로 설계됐고, 패치 분할 계층까지 포함해 총 4096배 압축을 실현했다.

완-벤치 2.0 벤치마크 결과 (사진=알리바바)
완-벤치 2.0 벤치마크 결과 (사진=알리바바)

성능 평가에서도 완2.2는 두각을 나타냈다. 자체 벤치마크인 ‘완-벤치 2.0’에서 주요 평가 항목 대부분에서 기존 상용 비디오 생성 모델들을 앞섰다.

한편, 알리바바는 이제 언어모델과 추론, 코딩 등에 이어 동영상 분야에서도 두각을 나타내고 있다. 다른 오픈 소스 그룹과는 점점 격차를 벌리고 있다.

 완2.2 모델 제품군은 허깅페이스모델스코프를 통해 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지