스테이블 캐스케이드로 생성한 이미지 (사진=스태빌리티 AI)
스테이블 캐스케이드로 생성한 이미지 (사진=스태빌리티 AI)

스태빌리티 AI가 사용자 PC의 GPU만으로 훈련과 미세조정이 가능하며 품질을 저하시키지 않고 빠른 속도로 추론하는 새로운 이미지 생성 인공지능(AI)을 출시했다. 품질과 효율 측면에서 첨단 이미지 생성 AI 모델인 ‘스테이블 디퓨전 XL(SDXL)’을 능가한다는 설명이다.

벤처비트는 13일(현지시간) 스태빌리티 AI가 효율과 품질을 대폭 강화한 새로운 이미지 생성 AI 모델 ‘스테이블 캐스케이드(Stable Cascade)’를 출시했다고 보도했다.

이에 따르면 스테이블 캐스케이드는 3단계 신경망 파이프라인으로 구성된 '뷔르스트헨(Würstchen)' 아키텍처를 기반으로 한 새로운 유형의 모델이다.

스테이블 디퓨전 등 다른 모델들과 비교해 훨씬 작은 잠재 공간에서 작동하는 것이 특징이다. 잠재 공간이 작을수록 추론 속도가 빨라지고 훈련 비용이 저렴해지는 장점이 있다.

스테이블 캐스케이드의 핵심은 AI가 분석한 이미지의 추상적 표현인 잠재 공간의 압축이다. 이미지를 1024×1024에서 128×128로 압축하는 스테이블 디퓨전에 비해, 스테이블 캐스케이드는 동일한 해상도를 24x24로 42배 압축한다. 높은 압축률에도 불구하고 선명한 이미지 재구성이 가능하다.

스테이블 캐스케이드는 이미지 생성을 위한 스테이지 A, B, C의 3단계 모델로 구성된다. 스테이지 C는 텍스트 프롬프트를 기반으로 24x24 잠재 이미지를 생성한다. 스테이지 A와 B는 잠재 이미지를 고해상도 이미지로 디코딩한다. 이미지 디코딩에서 텍스트-이미지 생성을 분리함으로써 초기 텍스트 조건부 모델을 훨씬 더 효율적으로 훈련하고 미세 조정할 수 있다. 

스테이지 C는 10억 및 36억 매개변수 모델이 제공되며, 스테이지 B는 7억 및 15억 매개변수 모델이 제공된다. 스테이지 A는 2000만 매개변수 모델이 제공된다.

스태빌리티 AI에 따르면 스테이지 C만 미세조정하면 동일한 크기의 단일 스테이블 디퓨전 모델을 미세조정하는 것에 비해 16배의 비용 절감이 가능하다. 

스테이블 캐스케이드 구조 (사진=스태빌리티 AI)
스테이블 캐스케이드 구조 (사진=스태빌리티 AI)

스태빌리티 AI의 평가에서 스테이블 캐스케이드는 이미지 품질과 추론 속도 측면에서 SDXL을 포함한 다른 주요 이미지 생성 AI 모델을 능가하는 것으로 나타났다.

SDXL보다 14억개의 매개변수가 더 많음에도 불구하고 스테이블 캐스케이드는 추론 시간이 더 빠르다.

또 주목할 만한 점은 이미지 내부에 텍스트를 적절하게 생성하는 스테이블 캐스케이드의 '타이포그래피' 기능이 '달리 3'와 같은 다른 이미지 생성 AI 모델보다 뛰어나다. 물론 다른 모델처럼 아직 완벽한 것은 아니다.

이외에도 스타일 및 구성을 유지하면서 특정 이미지의 새로운 변형을 생성할 수 있다. 입력 이미지에 노이즈를 추가하고 새 이미지를 생성, 이미지 간 변환을 수행할 수도 있다. 인페인팅 및 초해상도와 같은 고급 기술도 사용할 수 있다. 

스테이블 캐스케이드는 현재 연구 미리보기 단계에 있으며 깃허브에 공개된 코드를 비상업적 용도로 사용할 수 있다 .

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지