대형언어모델(LLM)의 기반이 되는 '트랜스포머(transformer)' 모델와 이미지 생성용 '확산(diffusion)' 모델을 결합한 하이브리드 이미지 생성 모델이 등장했다. 이를 통해 고품질의 이미지를 적은 계산량으로 빠르게 생성할 수 있게 됐다.
MIT와 엔비디아 연구진이 21일(현지시간) 트랜스포머와 확산 모델의 장점을 결합한 하이브리드 이미지 생성 모델 ‘HART(Hybrid Autoregressive Transformer)’에 관한 논문을 온라인 아카이브에 게재했다.
'스테이블 디퓨전'과 '달리'와 같은 디퓨전 모델은 반복적인 과정을 통해 이미지를 생성하는데, 각 픽셀에서 일정량의 랜덤 노이즈를 예측하고 이를 제거한 뒤 여러번 이 과정을 반복해 노이즈가 없는 새로운 이미지를 만든다.
단계마다 이미지의 모든 픽셀을 디노이징(de-noising)하며, 이 과정이 30번 이상 반복될 수 있어 연산 비용이 높고 속도가 느린 편이다. 그러나 모델이 여러번 세부 사항을 수정하기 때문에 결과물의 품질이 매우 뛰어나다.
반면, 텍스트 생성에 사용되는 트랜스포머 모델은 이미지를 몇픽셀 단위로 순차적으로 예측해 패치를 생성하는 방식으로 이미지를 만들 수 있다. 이전 단계에서 발생한 오류를 수정할 수는 없지만, 순차 예측 방식 덕분에 확산 모델보다 훨씬 빠르게 이미지를 생성할 수 있다.
원본 이미지의 픽셀을 개별 토큰으로 압축하고, 예측된 토큰을 기반으로 이미지를 재구성한다. 이 방식은 훨씬 빠르지만, 압축 과정에서 정보 손실이 발생하기 때문에 오류가 많은 저품질 이미지를 생성할 가능성이 있다.
HART는 두 모델의 장점을 결합한 것이다. 트랜스포머 모델을 활용해 전체적인 이미지 구도를 빠르게 생성한 뒤 확산 모델을 사용해 이미지의 세부 정보를 정교하게 다듬는 하이브리드 접근 방식이다.
즉, 트랜스포머 모델을 사용해 압축된 이산(discrete) 이미지 토큰을 예측한 뒤, 작은 확산 모델을 활용해 잔여(residual) 토큰을 예측하도록 설계했다. 잔여 토큰은 이산 토큰이 놓친 세부 정보를 보완해 모델의 정보 손실을 줄이는 역할을 한다.
확산 모델이 트랜스포머 모델 작업 이후 남은 세부 정보만 예측하면 되기 때문에, 전체 이미지를 생성하는 데 시간이 줄어든다. 일반적인 확산 모델이 30단계 이상을 거치는 반면, 이 방식은 8단계 만에 작업을 완료할 수 있다.
이 때문에 HART는 트랜스포머 모델의 속도 이점을 유지하면서도 복잡한 이미지 세부 정보를 생성하는 능력을 크게 향상할 수 있다.
HART는 7억 매개변수를 가진 트랜스포머 모델과 3700만 매개변수를 가진 경량 확산 모델을 결합했다. 20억 매개변수를 가진 확산 모델과 동일한 품질의 이미지를 생성하면서도 속도는 9배 더 빠르다.
또 최첨단(SOTA) 모델보다 약 31% 적은 연산량을 사용한다. 따라서 일반 노트북이나 스마트폰에서도 실행할 수 있다.
연구진은 "풍경을 그리는 경우 캔버스 전체를 한번만 그리면 그다지 좋아 보이지 않을 수 있지만, 큰 그림을 그린 다음 작은 붓놀림으로 이미지를 다듬으면 훨씬 좋아 보일 수 있다. 이것이 HART의 기본 아이디어"라고 설명했다.
디퓨전 모델에 트랜스포머를 접합한 것은 이번이 처음은 아니다. 구글은 이미 2021년 '비전 트랜스포머' 아키텍처에 대한 논문을 내놓았다. 이는 텍스트 토큰 대신 이미지를 고정 크기로 나눈 패치를 전달해 시각 데이터에서 작동하도록 트랜스포머 아키텍처를 조정한 것이다. 그리고 이를 활용한 것이 오픈AI의 '소라'다.
연구진은 앞으로 HART 아키텍처를 비전-언어 모델, 비디오 생성 모델 및 오디오 예측 모델 개발에 활용할 계획이다.
현재 HART는 깃허브에서 코드를 다운로드할 수 있으며, 데모 사이트에서 체험해볼 수 있다.
박찬 기자 cpark@aitimes.com
