멀티모달 언어모델 ‘팜-E’...5620억개 이상의 매개변수로 구축

멀티모달 언어 모델 ‘팜-E’ (사진=구글)
멀티모달 언어 모델 ‘팜-E’ (사진=구글)

언어와 시각 인식 기능을 동시에 갖춘 멀티모달 언어모델(VLM)이 나왔다.

아르스테크니카는 8일(현지시간) 구글과 베를린 공과대학 연구진이 언어 분석과 영상 인식을 통합해 자연어 명령을 이해하고, 주변 이미지를 분석해 로봇에 다양한 작업을 수행할 수 있도록 해주는 언어모델 ‘팜-E(PaLM-E)’를 공개했다고 보도했다.

팜-E는 5620억개의 매개 변수를 지닌 VLM으로 지금까지 나온 것 가운데 가장 큰 규모를 자랑한다. 재교육을 하지 않아도 다양한 작업을 수행할 수 있는 것이 장점이다.

우선 팜-E는 ‘서랍에서 과자를 꺼내와’ 같은 복잡한 명령이 주어지면 언어 분석과 컴퓨터 비전을 기반으로 행동 계획을 생성한다. 즉 사람의 말을 이해한 뒤 카메라를 통해 보이는 주변 환경을 인식한 다음 실행 계획을 수립한다. 그 과정에 인간이 개입해 시각 데이터를 처리하거나 별도의 주석을 달 필요가 없어 자율적인 거동이 가능하다.

작업 수행 중 환경 변화에도 반응할 수 있다. 예를 들어 과자를 가져오는 과정에서 다른 사람이 이를 가로채 테이블 위에 올려놓으면, 로봇은 무슨 일이 일어났는지 파악하고 다시 과자를 찾아 요청한 사람에게 가져다주는 식이다.

‘서랍에서 과자를 가져와’라는 명령을 수행하는 로봇 (사진=구글)
‘서랍에서 과자를 가져와’라는 명령을 수행하는 로봇 (사진=구글)

팜-E 모델은 사람의 안내가 필요했던 복잡한 작업도 자율적으로 실행하도록 제어할 수 있다. 예를 들어 ‘색상별로 블록을 다른 모서리에 모아놓기’와 같은 작업을 실행할 수 있다.

복잡한 순서의 작업을 수행하는 로봇 (사진=구글)
복잡한 순서의 작업을 수행하는 로봇 (사진=구글)

나아가 학습하지 않은 부분에 대해서도 '일반화'를 적용할 수 있다. 예를 들어 학습한 데이터셋에 빨간색 블록이 포함돼 있지 않아도, ‘빨간색 블록을 커피잔 쪽으로 옮기라’는 지시가 주어지면 나머지 블록 색깔을 바탕으로 해당 동작을 실행한다. 

일반화 과정을 통해 학습하지 않은 상황을 처리하는 로봇 (사진=구글)
일반화 과정을 통해 학습하지 않은 상황을 처리하는 로봇 (사진=구글)

팜-E는 챗GPT와 유사한 구글의 대규모 언어 모델인 ‘팜(PaLM)’에 감각 정보를 내장해 구현된 모델이다. 언어 모델을 기반으로 하기 때문에 이미지나 센서 데이터를 지속적인 관찰하고 이를 언어 토큰과 동일한 크기의 벡터 시퀀스로 인코딩한다. 이를 통해 모델은 언어를 처리하는 것과 동일한 방식으로 감각 정보를 이해할 수 있다.

연구진은 “팜-E가 한 작업에서 배운 지식과 기술을 새로운 작업으로 이전할 수 있어 단일 작업을 하는 로봇 모델보다 더 높은 성능을 낼 수 있다”며 “또 언어 및 시각적 입력을 모두 분석할 수 있으며 여러 이미지를 사용해 추론 또는 예측할 수 있다”고 강조했다. 

ars테크니카는 "시간이 지남에 따라 딥 러닝 모델이 정교해지며 놀라운 수준에 도달했다"라며 "더불어 멀티모달로 인해 인간 수준의 지능을 갖춘 AGI(인공일반지능) 시대가 당겨지고 있다"고 평했다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • MS, 멀티모달 대규모 언어 모델 ‘코스모스-1’ 공개
  • 인공지능이 로봇도 제어한다...MS, '챗GPT'로 로봇 제어 연구
  • 구글, 스스로 생각해서 반응하는 AI로봇 공개