스테이블 디퓨전 XL 터보 (영상=스태빌리티 AI)

스태빌리티 AI가 실시간으로 이미지를 생성할 수 있는 '스테이블 디퓨전 XL 터보'를 출시했다. 출시 초기라 다양성은 많이 부족하지만, 생성 속도는 모든 이미지 생성 인공지능(AI) 중 가장 빠르다는 설명이다.

벤처비트는 29일(현지시간) 스태빌리티 AI가 텍스트 프롬프트를 기반으로 이미지를 빠르게 생성할 수 있는 AI 이미지 생성 도구 '스테이블 디퓨전 XL 터보'를 출시했다고 보도했다. 

이에 따르면 스테이블 디퓨전 XL 터보는 50단계의 생성 프로세스를 단일 단계로 대폭 축소했다. 이로 인해 컴퓨팅 로드도 줄어들었다. 스테이블 디퓨전 XL 터보는 엔비디아 A100 GPU에서 단 207밀리초 만에 512×512 이미지를 생성할 수 있으며, 이는 이전 AI 확산 모델에 비해 속도가 크게 향상된 것이다.

때로는 더 빠른 하드웨어에서 더 빠른 속도가 나오지만 스테이블 디퓨전 XL 터보의 생성 속도는 강력한 하드웨어가 아니라 'ADD(Adversarial Diffusion Distillation)’라는 기술 때문이다. 

생성 AI 모델을 가속화하는 과정에서 품질과 정확성 사이에서 절충점이 발생하는 경우가 많다. 이러한 절충안은 스테이블 디퓨전 XL 터보에서는 거의 존재하지 않으며 기존 스테이블 디퓨전 XL보다 이미지 품질이 약간 낮을 뿐 매우 상세한 결과를 제공한다.

ADD는 반복적인 프로세스를 사용해 우수한 품질의 이미지를 생성하는 스테이블 디퓨전의 확산 모델과 빠르게 이미지를 생성하는 적대적생성신경망(GAN)의 장점을 활용한다. 즉 이 ADD는 확산 모델의 우수한 샘플 품질과 GAN의 고유 속도를 결합하는 것이다. 

GAN은 서로 다른 두 개의 네트워크를 적대적으로(adversarial) 학습하며 실제 데이터와 비슷한 데이터를 생성(generative)해내는 모델이다.

ADD는 기존 확산 모델의 지식에서 학습, 더 비슷한 이미지를 생성하고 실제 이미지와 생성된 이미지를 적대적으로 구별함으로써 출력의 사실성을 향상시킨다. 주요 이점은 스테이블 디퓨전 모델의 사전 학습을 활용하면서 높은 충실도와 반복적 개선 능력을 유지하고 빠른 샘플링을 수행할 수 있다는 것이다. 

스테이블 디퓨전 XL 터보가 생성한 이미지는 더 많은 수의 단계에서 생성된 스테이블 디퓨전 XL 이미지만큼 품질이 높지 않고 다양성이 부족하기 때문에 스테이블 디퓨전 XL을 대체한다고 볼 수는 없다. 그러나 속도 절감 면에서 결과는 주목할 만하다. 

스태빌리티 AI에 따르면 테스트 결과 스테이블 디퓨전 XL 터보는 약 4초 만에 3단계 1024×1024 이미지를 생성했으며, 512×512의 경우는 1초 미만이 걸렸다. 이미지 크기가 작을수록 훨씬 빠르게 생성되며 더 강력한 그래픽 카드를 사용하면 생성 시간도 훨씬 더 빨라졌다고 한다. 

현재 스테이블 디퓨전 XL 터보는 비상업적 연구 라이센스에 따라 허깅페이스에서 코드 및 모델 가중치를 사용할 수 있다. 

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • 스태빌리티 AI, '비디오 생성 AI' 출시..."퀄리티는 최고급"
  • 스테이블디퓨전, 3D도 그려낸다...'기업 서비스'에 초점
  • 스태빌리티 AI, 오디오 생성 AI '스테이블 오디오' 출시