‘Muse’라는 단어가 불길 속에서 씌어진 벽난로 (사진=구글)
‘Muse’라는 단어가 불길 속에서 씌어진 벽난로 (사진=구글)

구글이 '달리(DALL-E)'나 '이마젠(Imagen)'보다 훨씬 빠른 속도로 고품질 이미지를 생성할 수 있는 새로운 텍스트 이미지 인공지능(AI) 모델 ‘뮤즈(Muse)’를 공개했다고 벤처비트가 13일(현지시간) 보도했다.

구글이 이번에 공개한 '뮤즈'는 256x256 이미지를 0.5초 만에 생성할 수 있는 것이 특징이다. 이마젠이 9.1초 걸리는 것과 비교하면 이미지 생성 속도가 무려 20배 가까이 향상됐다. 

생성한 이미지의 품질도 훨씬 우수하다. 생성 AI로 생성한 이미지의 품질과 정확성을 측정하는 두가지 메트릭인 CLIP 및 FID에서 다른 모델들보다 높은 점수를 기록했다. FID는 이미지 생성 품질을 측정하고, CLIP은 텍스트 프롬프트와의 일치 정도를 측정하는 방법이다. 

뮤즈의 핵심은 픽셀 수준의 표현 대신 토큰을 사용해 이미지와 텍스트 생성을 통합하는 것이다. 뮤즈는 세가지 모델로 구성된다. 먼저 구글의 대규모 언어 모델(LLM) T5는 입력된 텍스트 프롬프트를 단어의 수치 표현인 텍스트 임베딩으로 변환한다. 이를 위해 T5는 이미지-캡션 쌍의 대규모 데이터 세트로 훈련했다.

동시에 이미지 인코더-디코더 모델은 인코더를 통해 입력 이미지를 압축된 토큰 매트릭스로 변환하고, 디코더를 통해 토큰 매트릭스를 다시 이미지로 복원하도록 훈련한다.

이미지를 이미지 토큰(visual token)으로 변환하는 이미지 인코더(tokenizer) (사진=구글)
이미지를 이미지 토큰(visual token)으로 변환하는 이미지 인코더(tokenizer) (사진=구글)

마지막으로 구글의 ‘마스크GIT(MaskGIT)’ 모델을 사용해 캡션에 대한 T5 텍스트 임베딩을 인코더-디코더 모델의 인코더가 생성한 이미지 토큰과 정렬해 256x256 및 512x512 이미지를 복원하도록 학습한다.

학습 중에 이미지 토큰 중 일부를 특별 토큰인 ‘[MASK]’ 토큰으로 마스킹하고 [MASK] 토큰 위치에 있을 이미지 토큰을 예측하도록 훈련한다. 즉 모델은 이미지 토큰을 무작위로 마스킹 하고 매개변수를 조정한다. 

뮤즈 아키텍처 (사진=구글)
뮤즈 아키텍처 (사진=구글)

전체 모델이 훈련된 추론 단계에서는 새 프롬프트의 텍스트 임베딩과 함께 전체 마스킹된 이미지 토큰에서 시작해서 단계적으로 [MASK] 토큰을 이미지 토큰으로 생성하고 이미지 토큰을 사용해 새로운 고해상도 이미지를 생성할 수 있다. 

뮤즈는 고품질 이미지를 생성하는 데 필요한 샘플링 반복 횟수를 줄이는 개별 토큰 및 병렬 샘플링 방법을 사용하기 때문에 이전 생성된 이미지를 이용해 다음 이미지를 순차적으로 생성하는 자동 회귀(autoregressive) 모델을 사용하는  달리, 스테이블 디퓨전 및 이마젠 보다 빠르다. 뮤즈의 병렬 디코딩은 시각적 품질의 손실 없이 매우 우수한 효율성을 제공한다. 

자동 회귀 모델 순차 디코딩(상)과 뮤즈의 병렬 디코딩(하) 비교 (사진=구글)
자동 회귀 모델 순차 디코딩(상)과 뮤즈의 병렬 디코딩(하) 비교 (사진=구글)

뮤즈의 중요한 장점 중 하나는 미세 조정 없이 편집 작업을 수행할 수 있다는 것이다. 기존 이미지의 일부를 생성된 그래픽으로 대체하는 인페인팅, 기존 이미지 주위에 세부 정보를 추가하는 아웃페인팅 및 이미지의 배경 또는 특정 개체를 변경하는 마스크 없는 편집이 가능하다.

뮤즈의 이미지 생성과 편집 (사진=구글)
뮤즈의 이미지 생성과 편집 (사진=구글)

딜립 크리슈난 구글 연구원은 "모든 생성 모델의 경우 수정 및 편집 프롬프트가 필요하다. 뮤즈의 효율성 덕분에 사용자는 이러한 수정을 신속하게 수행할 수 있다"라며 “토큰 기반 마스킹을 사용하면 텍스트와 이미지에 사용되는 방법을 통합할 수 있다. 잠재적으로 다른 양식에 사용될 수 있다”고 덧붙였다.

구글은 잘못된 정보, 오남용 또는 다양한 유형의 사회적 및 문화적 편견에 모델이 사용될 위험이 있기 때문에 아직 뮤즈를 대중에게 공개하지 않았다.

박찬 위원 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지