LIMoE의 '전문가' 예시(출처=구글AI 블로그)
LIMoE의 '전문가' 예시(출처=구글AI 블로그)

구글AI가 이미지와 텍스트를 동시에 처리하는 대형 아키텍처 'LIMoE(Language Image Mixture of Experts)'를 선보였다.  미국 AI 전문 매체 마크테크포스트는 이 아키텍처가 특정 작업에서 탁월한 전문 역량을 발휘하는 데 필요한 유연성을 갖추고 있다고 평가했다.

구글 연구팀은 그동안 스파시티(sparsity, 소수의 변수로 현상을 설명하고 예측하는 것을 의미) 연구에 관심을 가져왔다. 많은 과업을 한꺼번에 처리하는 아키텍처인 '패스웨이스(Pathways)'는 수천개의 활동과 데이터를 다룰 수 있는 단일한 거대 모형을 만든다는 연구 목표를 요약해 주는 것이다.

Switch, Task-MoE, GLaM와 같은 스파스 유니모달 언어 모형과 컴퓨터 비전 기술은 지금까지 의미 있는 진보를 이뤄왔다. 구글 AI팀은 오늘날 대형의 스파스 모형을 연구하고 있다. 이 모형은 모달리티들에 대해 하나의 트랜스포머 모델을 적용하는 모달리티-애그노스틱(odality-Agnostic) 방식으로 이미지와 텍스트를 동시에 처리한다.

멀티모달 대조 학습(Multimodal contrastive learning)은 실행가능한 옵션이다. 이는 그림과 설명을 일치시키기 위해 이미지와 텍스트에 대한 완전한 포착을 필요로 하기 때문이다. 멀티모달 대조학습에 가장 효과적인 모형들은 각각의 모달리티에 대해 별도의 네트워크를 적용해 왔다. 스파스(sparse) 모형은 미래의 딥러닝에 가장 유망한 방법이다.

조건부 연산을 활용하는 가벼운 모형들은 모델 전체가 모든 정보를 분석하기 보다는 각기 다른 ‘전문성을 가진 큰 네트워크(구글AI는 이를 ’전문가‘로 지칭)’들로 특정한 정보를 보내는 방법을 학습한다. 이는 여러 가지 잇점이 있다. 먼저 모형의 크기가 컴퓨팅 비용은 고정된 채로 커질 수 있다. 좋은 성과를 내는데 필요한 모델의 크기 키우기에 효과적이다.

‘촘촘한(dense, 매개 변수가 많은)’ 모형은 여러 작업을 동시에 또는 연속적으로 학습하지만 새로운 기능이 더해지면 이전의 기능이 나빠지는 어려움이 있다. 스파스 모형은 이런 문제를 피할 수 있다. 전체 모형을 모든 입력 작업에 쓰지 않음으로써 ‘전문가(전문적인 큰 네트워크)’가 과업이나 데이터 타입에 주목할 수 있게 한다.

멀티모달 대조 학습을 하는 구글AI의 LIMoE는 ‘전문가’들을 성기게(sparse) 혼합한 첫 번째 대형 멀티모달 아키텍처다. LIMoE는 유기적으로 특화된 ‘전문가’들을 성기게 활성화하면서 이미지와 단어를 동시에 분석한다. 이 아키텍처는 ‘촘촘한’ 멀티모달 모형과 이미지를 분류하는 작업에서 쓰이는 기술들에 비해 우수하다고 구글AI측은 밝혔다. 

AI타임스 이한선 객원 기자 griffin12@gmail.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지