MAGE의 마스킹된 토큰 모델링(사진=MIT)
MAGE의 마스킹된 토큰 모델링(사진=MIT)

이미지 인식 모델과 이미지 생성 모델을 통합한 통합 컴퓨터 비전 시스템이 나왔다.

광범위한 애플리케이션에 활용할 수 있을 뿐만아니라 이미지를 식별하고 새로운 이미지를 생성하기 위한 두 개의 개별 시스템을 훈련시키는 오버헤드를 줄일 수 있게 됐다.

MIT의 연구진이 21일(현지시간) 캐나다에서 열린 컴퓨터 비전 및 패턴 인식에 관한 연례회의 'CVPR 2023'에서 이미지 인식 및 이미지 생성 작업을 모두 높은 정확도로 처리할 수 있는 MAGE(Masked Generative Encoder)라는 프레임워크를 발표했다.

MAGE는 이미지 생성 및 인식 시스템 구축에 사용되는 두 가지 프로세스인 최첨단 생성 모델링과 자기 감독 표현 학습(self-supervised represational learning)을 결합한다. 

생성 모델링은 텍스트에서 이미지를 생성하는 것과 같은 저차원 입력에서 고차원 데이터를 생성하는 것과 관련된다. 표현 학습은 이미지를 식별하는 것과 같은 고차원 이미지를 사용해 특징 감지 또는 분류를 위한 저차원 임베딩을 생성한다. 

MAGE는 통합 아키텍처에서 이 두 기술을 함께 제공한다. 이 시스템을 개발하기 위해 연구진은 이미지 데이터를 일정 크기의 패치로 나누어 시맨틱 토큰으로 표현되는 데이터로 변환하는 마스킹된 토큰 모델링(masked token modeling)이라는 사전 훈련 방식을 사용했다. 이러한 토큰 중 일부는 무작위로 마스킹되었으며 주변 토큰의 컨텍스트 정보를 기반으로 숨겨진 토큰을 예측하도록 신경망을 훈련했다. 

MAGE 아키텍처 (사진=MIT)
MAGE 아키텍처 (사진=MIT)

그런 식으로 시스템은 이미지의 패턴을 이해하고(이미지 인식) 새로운 패턴을 생성(이미지 생성)하는 방법을 학습했다. 100% 마스킹된 이미지를 ‘재구성’하는 것이 이미지 생성이고, 0% 마스킹된 이미지를 '인코딩'하는 것 이미지 인식인 셈이다.

이 모델은 생성 기능을 가능하게 하는 높은 마스킹 비율과 표현 학습을 가능하게 하는 낮은 마스킹 비율을 포함하는 광범위한 마스킹 비율에 대해 재구성하도록 훈련되었다.

이러한 접근 방식을 통해 동일한 프레임워크, 아키텍처, 훈련 방식 및 손실 함수에서 생성 훈련과 표현 학습을 원활하게 결합할 수 있게 된 것이다.

처음부터 이미지를 생성할 수도 있고 사용자가 참조 이미지를 추가로 입력해 적절한 이미지를 만드는 조건부 이미지 생성도 가능하다. 사용자가 이미지를 입력하면 시스템은 이미지를 이해하고 인식해 이미지 가 무엇인지를 출력할 수 있다.

특히 사용자는 부분적으로 자른 이미지를 입력할 수 있고 시스템은 잘린 이미지를 복구하거나 지정한 이미지로 채울 수 있다. 예를 들어 고양이와 개가 있는 사진을 입력하고 고양이와 개의 다리를 각각 개와 고양이로 바꾸라고 지시하면 시스템이 사진에서 고양이와 개를 인식해서 고양이는 개 다리로 개는 고양이 다리로 출력할 수 있다.

MAGE의 이미지 인식 기반 이미지 생성 (사진=MIT)
MAGE의 이미지 인식 기반 이미지 생성 (사진=MIT)

MAGE의 잠재적인 응용 분야는 광범위하다. 이미지 이해 작업에 사용할 수 있는 레이블이 제한된 데이터가 있는 틈새 산업이나 신흥 기술에서 사용할 수 있다. 생성 측면에서는 사실적인 모양을 유지하면서 이미지에서 요소를 제거하거나 생성된 다른 요소로 대체하여 사진 편집, 시각 효과 및 후반 작업을 지원할 수 있다.

MIT 연구진은 정보 손실을 방지하기 위해 MAGE 시스템, 특히 토큰 변환 프로세스를 간소화하기 위해 노력하고 있다. 또한 레이블이 지정되지 않은 실제 이미지 데이터 세트에서 MAGE를 확장하고 이를 이미지-텍스트 및 텍스트-이미지 생성과 같은 다중 양식 작업에 적용할 계획이다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지