2590ms 속도 50단계 스테이블 디퓨전 생성 이미지(위)와 90ms 속도 DMD 기반 단일 단계 모델 비교 
2590ms 속도 50단계 스테이블 디퓨전 생성 이미지(위)와 90ms 속도 DMD 기반 단일 단계 모델 비교 

MIT 연구진이 '실시간'으로 이미지를 생성할 수 있는 프레임워크를 공개했다. 기존 확산 모델의 다단계 프로세스를 단일 단계로 단순화하는 방식으로, 생성 속도는 모든 이미지 생성 인공지능(AI) 중 가장 빠르다는 설명이다. 

MIT 뉴스는 22일(현지시간) MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL) 연구진이  확산 모델(Diffusion Model)의 다단계 프로세스를 단일 단계로 단순화하는 ‘분포 매칭 증류(DMD)’에 대한 논문을 온라인 아카이브에 게재했다고 전했다.

AI 이미지 생성기는 일반적으로 ‘확산’이라는 프로세스를 통해 작동한다. 기본적으로 이미지를 생성하는 모델은 모호하고 흐릿한 노이즈 상태로 시작하며, 연속적인 샘플링 단계를 통해 이미지가 선명하고 사실적이 될 때까지 이미지를 다듬는다. 이처럼 확산은 일반적으로 많은 단계를 필요로 하는 시간 소모적인 프로세스다.

하지만 MIT 연구진은 DMD라는 새로운 접근 방식을 사용해 30~50단계의 생성 프로세스를 단일 단계로 대폭 축소했다.

이로 인해 컴퓨팅 로드도 줄어들었다. '스테이블 디퓨전 1.5'가 최신 하드웨어에서 이미지를 생성하는 데 약 1.5초가 걸리는 반면, MIT의 새로운 DMD 기반 모델은 약 500분의 1초에 불과하다.

DMD 접근 방식 설명도 (사진=MIT)
DMD 접근 방식 설명도 (사진=MIT)

더 빠른 하드웨어에서 더 빠른 속도가 나오지만, DMD 기반 모델의 생성 속도는 강력한 하드웨어가 아니라 생성적 적대 네트워크(GAN)의 원리와 확산 모델의 원리를 결합해 단일 단계로 시각적 콘텐츠를 생성하는 기술 때문이다. GAN은 서로 다른 두 개의 네트워크를 적대적으로(adversarial) 학습하며 실제 데이터와 비슷한 데이터를 생성(generative)하는 모델이다.

생성 AI 모델을 가속화하는 과정에서 품질과 속도 사이에서 절충점이 발생하는 경우가 많다. 하지만 DMD 기반 모델에서는 이런 절충점이 거의 존재하지 않으며, 이미지의 품질을 유지하면서 훨씬 더 빠른 생성 결과를 제공한다는 설명이다. 

DMD는 반복적인 프로세스를 사용해 우수한 품질의 이미지를 생성하는 확산 모델과 빠르게 이미지를 생성하는 GAN의 장점을 활용한다. 즉 이 DMD는 확산 모델의 우수한 샘플 품질과 GAN의 고유 속도를 결합한 것이다. 

DMD는 기존 확산 모델의 지식에서 학습, 더 비슷한 이미지를 생성하고 실제 이미지와 생성된 이미지를 적대적으로 구별함으로써 출력의 사실성을 향상한다. 이를 통해 확산 모델의 사전 학습을 활용하면서 높은 충실도와 반복적 개선 능력을 유지하고 빠른 샘플링을 수행할 수 있다는 설명이다. 

연구진은 "우리의 작업은 스테이블 디퓨전 및 달리-3(DALLE-3)과 같은 현재 확산 모델을 30배 가속하는 새로운 방법"이라고 강조했다.

또 "계산 시간을 크게 줄일 뿐만 아니라 생성된 시각적 콘텐츠의 품질을 유지한다"라며 "이는 잠재적으로 속도와 품질이 뛰어난 새로운 생성 모델링 방법이 될 수 있다”라고 말했다.

이미지 생성을 가속화하기 위해 훨씬 적은 단계로 확산을 수행하는 방법을 알아낸 것은 이번이 처음이 아니다.

스태빌리티 AI는 50단계의 생성 프로세스를 단일 확산 단계로 축소, 1메가픽셀 이미지를 생성할 수 있는 스테이블 디퓨전 XL 터보(Stable Diffusion XL Turbo)라는 모델을 출시한 바 있다.

스테이블 디퓨전 XL 터보는 MIT의 ‘DMD’ 접근 방식과 매우 유사한 방식으로 작동한다. 엔비디아 A100 GPU에서 단 207밀리초 만에 512×512 이미지를 생성할 수 있으며, 이는 이전 AI 확산 모델에 비해 속도가 크게 향상된 것이다. 

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • 미드저니, 생성 이미지 '일관성' 유지하는 기능 추가
  • '스테이블 디퓨전 3' 공개..."소라와 비슷한 트랜스포머 아키텍처 도입"
  • 미드저니 'V6' 출시..."극도의 사실성과 디테일"