마이크로소프트(MS)가 다양한 비전 작업을 통합 처리하는 새로운 비전 기반 모델을 출시했다. 이를 통해 다양한 유형의 비전 애플리케이션을 단일 모델에서 처리할 수 있게 됐다.
벤처비트는 19일(현지시간) MS 연구진이 캡션, 객체 감지, 시각적 접지 및 세분화 등 비전 작업과 비전 언어 작업을 통합 처리할 수 있는 모델 ‘플로렌스-2(Florence-2)’ 논문을 아카이브에 게재했다고 전했다.
2억3200만 및 7억7100만 매개변수의 두가지 버전을 제공하며, 허깅페이스에서 연구 및 상업적 용도로 사용할 수 있다.
다양한 유형의 비전 애플리케이션을 처리할 수 있는 단일 모델을 제공함으로써, 별도의 미세조정 없이도 작업 특화 비전 모델에 대한 투자를 절약할 수 있게 됐다는 설명이다.
다양한 비전 작업을 처리하는 범용 모델은 객체 위치와 같은 광범위한 이미지 수준 개념에서부터 세밀한 픽셀 세부 사항, 고급 캡션에서 상세한 설명에 이르기까지 다양한 규모의 공간 데이터를 이해할 수 있어야 한다.
이를 위해 MS는 먼저 'FLD-5B'라는 시각 데이터셋을 구축, 모델을 학습했다.
이 데이터셋에는 1억2600만개의 이미지에 대한 총 54억개의 주석이 포함돼 있으며, 고수준 설명부터 특정 영역 및 객체에 이르기까지 세부 사항을 다룬다.
또 플로렌스-2는 이미지 인코더와 다중 양식 인코더-디코더를 통합한 '시퀀스-투-시퀀스' 신경망 아키텍처를 사용한다. 이를 통해 작업별 아키텍처 수정 없이 다양한 비전 작업을 처리할 수 있다.
이미지 및 다중 텍스트 프롬프트가 입력되면, 플로렌스-2는 객체 감지와 캡션 작성, 시각적 접지 및 시각적 질문 답변을 포함한 다양한 작업을 처리할 수 있다는 설명이다.
이후 사람이 라벨을 추가한 공개 데이터셋으로 미세조정한 플로렌스-2는 작은 크기에도 불구하고, 다른 대형 전문가 모델들과 동등하거나 더 나은 성능을 제공했다.
'코코(COCO)' 데이터셋에서의 제로샷 캡셔닝 테스트에서 프로렌스-2의 2.32억 및 7.71억 버전은 각각 133점과 135.6점을 기록, 구글 딥마인드의 800억 매개변수 '플라밍고(Flamingo)' VLM을 능가했다.
또 마이크로소프트(MS)의 시각적 접지 특화 모델인 '코스모스-2(Kosmos-2)'보다 더 우수한 성능을 보였다. 시각적 접지(Visual Grounding)는 텍스트로 설명된 객체를 이미지에서 식별하는 기술이다.
연구진은 “플로렌스-2는 코코 객체 감지 및 인스턴스 분할, 그리고 ADE20K 의미 분할과 같은 다운스트림 작업의 성능을 향상하며, 기존 지도 학습 및 자기 지도 학습 모델을 모두 능가한다”라고 강조했다.
또 “이미지넷(ImageNet)에서 사전 훈련된 모델과 비교하면 우리 모델은 훈련 효율성을 4배 향상하며, 코코와 ADE20K 데이터셋에서 각각 6.9, 5.5, 5.9점의 상당한 성능 향상을 달성했다”라고 덧붙였다.
박찬 기자 cpark@aitimes.com
