OK-로봇 (사진=메타)
OK-로봇 (사진=메타)

메타가 훈련되지 않은 상황에서도 자체적으로 판단해 역할을 수행하는 로봇 시스템을 개발하고 있다. 메타는 비전 언어 모델(VLM) 기술을 고도화, 로봇에 적용하는 연구에 속도를 내고 있다.

벤처비트는 29일(현지시간) 메타와 뉴욕대학교 연구진이 사전 학습 머신러닝(ML) 모델을 통합해 학습하지 않은 환경에서도 작업을 수행할 수 있는 로봇 프레임워크 논문을 발표했다고 보도했다.

이에 따르면 ‘OK-로봇(OK-Robot)’이라고 불리는 이 프레임워크는 VLM과 이동 계획 및 객체 조작 등 로봇의 기본 요소 기술을 결합해 훈련 없이도 픽 앤 드롭(pick-and-drop) 작업을 수행할 수 있다. 

이 프레임워크를 사용하면 로봇이 전에 본 적이 없는 환경에서도 스스로 구조를 파악하고, 특정 물체를 찾아 이동하며, 물체를 집어서 옮기는 작업 등을 수행할 수 있다. 이를 위해 OK-로봇은 ▲개방형 어휘 물체 탐색 모듈 ▲RGB-D 그랩핑 모듈 ▲드롭 휴리스틱 시스템 등 세가지 기본 하위 시스템을 결합한다. 

새집에 OK-로봇을 배치할 경우, 사용자는 건물 내부에서 아이폰 앱을 사용해 RGB-D 사진을 찍는 방식으로 스캔할 수 있다. 이를 바탕으로 OK-로봇은 3D 환경 맵을 생성한다.

OK-로봇은 비전 트랜스포머(ViT) 모델로 각 이미지를 처리해 물체에 대한 정보를 추출하고, 물체와 환경 정보를 한데 모아 '시맨틱 물체 메모리 모듈'을 생성한다.

자연어로 물체를 조작하라는 명령이 주어지면 메모리 모듈은 프롬프트의 임베딩을 계산해 가장 가까운 의미 표현을 가진 물체를 지정한다. 그다음 OK-로봇은 내비게이션 알고리즘을 사용해 충돌을 일으키지 않고 물체를 조작할 수 있도록 최적의 경로를 찾는다.

마지막으로 로봇은 RGB-D 카메라, 물체 분할 모델, 사전 학습된 파악 모델을 사용해 물체를 찾고 집어 올린다. 로봇은 유사한 프로세스를 사용하여 목적지에 이동한 후 물체를 내려놓는다. 이 과정에서 로봇은 각 물체에 가장 적합한 그립을 찾는 것은 물론 평평하지 않을 수 있는 경로도 이동할 수도 있다.

연구진은 "완전히 새로운 환경에서 자율적으로 첫번째 '픽 앤 드롭' 작업을 완료하는 데 평균 10분도 걸리지 않는다"라고 말했다.

연구진은 OK-로봇을 10개의 다른 구조의 가구에서 171회의 픽 앤 드롭 실험을 진행, 새로운 환경에서 어떤 성능을 발휘하는지 평가했다. OK-로봇은 58%의 사례에서 성공했다.

특히 '제로 샷 알고리즘'을 적용했다고 밝혀, 모델이 이런 환경에 대해 특별히 훈련되지 않았음을 의미한다. 또 연구진은 명령 쿼리를 개선함과 동시에 공간을 정리하고 적대적인 물체를 제외하면 성공률이 82% 이상으로 높아진다는 사실을 발견했다고 전했다.

다만 OK-로봇은 완벽하지 않다고 덧붙였다. 주어진 자연어 프롬프트에 대해 올바른 물체를 찾지 못하는 경우가 있다. 또 일부 물체에 대한 파악이 실패하거나 일부 로봇 하드웨어에서는 제약이 있다는 점도 들었다. 

게다가 환경이 스캔된 후에는 물체 메모리 모듈이 정지되기 때문에 물체 배치가 변할 경우에는 적응할 수 없었다고 밝혔다. 즉 환경 변화가 생기면 스캔을 반복, 3D 맵을 다시 생성해야 한다는 설명이다.

그럼에도 불구하고 OK-로봇 프로젝트는 몇가지 중요한 결과를 도출했다고 강조했다. 

우선 현재의 개방형 어휘 VLM이 현실 세계 임의의 물체를 식별하고 제로 샷 방식으로 탐색하는 데 매우 능숙하다는 것을 보여준다는 점이다. 또 대량의 데이터로 사전 학습된 특수 목적 로봇 모델을 즉시 적용, 훈련하지 않은 환경에서도 개방형 어휘 파악에 접근할 수 있음을 보여준다. 

마지막으로 올바른 도구와 구성을 사용하면 사전 학습된 모델을 결합, 학습 없이도 제로 샷 작업을 수행할 수 있음을 보여준다는 점을 꼽았다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지