(사진=셔터스톡)
(사진=셔터스톡)

로봇이 작업을 수행하기 전에 작업에 대해 구체적으로 추론하도록 기술이 나왔다. 현재 로봇 모델을 이루는 시작-언어-행동(VLA) 모델에 고급 추론 기술을 더해 정교함을 더한 것인데, 얼마전 구글도 비슷한 모델을 공개하는 등 이 분야의 개발이 기속화되는 분위기다. 

벤처비트는 19일(현지시간) UC 버클리, 워소대학교, 스탠포드대학교 연구진이 로봇이 VLA 모델을 기반으로 작업, 하위 작업 및 환경에 대해 추론할 수 있도록 하는 ‘내장 사고사슬(ECoT, Embodied Chain-of-Thought Reasoning)’ 기술에 관한 논문을 아카이브에 게재했다고 보도했다.

VLA는 사전 훈련된 대규모 시각-언어 모델(VLM)의 기능을 기반으로 텍스트와 이미지를 사용해 다양한 현실 세계 개념을 이해하고 로봇 행동으로 변환한다.

로봇이 특정 작업을 수행하도록 프로그래밍하는 대신, AI 모델로 작업에 대한 지식을 학습하는 방식이다. 예를 들어 '쓰레기를 주워'라는 명령을 수행하기 위해 인터넷이나 이미지 등을 학습, 어떤 것이 쓰레기에 해당하는지를 이해하고 실행하는 식이다.

이후 비슷한 명령을 처리할 때 재교육이나 별도 프로그래밍이 필요없다는 것이 강점이다. 오픈 소스 ‘오픈VLA(OpenVLA)’와 구글 딥마인드의 RT-2, RT-X-2가 대표적인 VLA 모델이다. 

다만, 현재의 VLA는 LLM에 비해 추론 능력이 부족하다. 이 때문에 VLA는 중간 추론 단계 없이 관찰에서 행동으로 직접 변환하는 것을 학습한다. 

특히 사고사슬(CoT) 추론은 LLM이 복잡한 작업에서 성능을 향상시키는 데 매우 효과적인 것으로 입증됐다. 중간 단계를 생성함으로써 LLM은 문제의 서로 다른 부분 간의 관계를 더 잘 매핑하고 더 정확한 해결책을 도출할 수 있다. 사고사슬(CoT)는 대형언어모델(LLM)이 복잡한 문제에 대한 해결책을 구체적인 단계로 분해하도록 지시하는 프롬프트 기술이다. 

ECoT는 로봇을 제어하는 VLA 모델과 CoT를 결합한 기술이다. ECoT는 작업과 하위 작업에 대한 의미론적 추론을 환경과 로봇 상태에 대한 내장 추론과 결합한다. 여기에는 객체 경계 상자 예측, 공간 관계 이해, 로봇의 사용 가능한 동작이 목표 달성에 어떻게 도움이 되는지에 대한 추론이 포함된다.

ECoT를 위한 데이터 생성 알고리즘 (사진=아카이브)
ECoT를 위한 데이터 생성 알고리즘 (사진=아카이브)

VLA 모델이 추론을 수행할 수 있도록 연구진은 ECoT 추론을 위해 VLA를 훈련시키기 위한 합성 훈련 데이터를 생성하는 파이프라인을 만들었다. 이 과정에는 사전 훈련된 객체 감지기, LLM 및 VLM을 사용하여 기존 로봇 데이터셋에 추론에 사용할 수 있는 정보를 주석으로 추가하는 것이 포함된다.

그다음 구글의 '제미나이'를 사용해 작업을 수행하기 위한 추론 체인을 생성한다. 주어진 작업 지시를 더 상세한 형태로 바꾸는 식이다. 이를 통해 작업 목표를 달성하는 데 필요한 하위 작업들의 순서대로 작성한다.

모델은 환경과 로봇의 현재 상태를 분석하여 집중할 특정 하위 작업을 식별한다. 선택된 하위 작업에 맞춘 "왼쪽으로 이동" "물체를 잡아라"와 같은 자연어 명령을 생성한다. 마지막으로 로봇의 그리퍼와 객체의 경계 상자와 같은 중요한 요소의 픽셀 위치를 예측한다. 

ECoT의 사슬 추론 (사진=아카이브)
ECoT의 사슬 추론 (사진=아카이브)

연구자들은 '라마-2 7B'와 '프리스매틱 VLM(Prismatic VLM)'을 기반으로 구축된 오픈VLA를 사용하여 로봇 조작 설정에서 ECoT를 평가했다.

그 결과, ECoT는 기본 오픈VLA의 성능을 크게 향상시켰으며, 기준 모델에 비해 작업 성공률을 28% 증가시켰다. 특히 이런 개선은 비용이 많이 들고 시간이 걸리는 추가 로봇 학습 데이터를 수집하지 않고도 달성됐다.

성능 향상 외에도 연구진은 ECoT가 특정 상황에서 모델이 실패한 이유를 이해하기 훨씬 쉽게 만든다는 것을 발견했다. 추론 단계가 자연어로 표현되었기 때문에 오류를 추적하고 의사 결정 과정에서 실패 지점을 식별할 수 있었다.

ECoT는 로봇 제어 시스템에 기초 모델을 통합하려는 최근 추세의 일부다.

최근 구글 딥마인드는 제미나이 1.5 프로를 결합해 로봇이 훨씬 적은 훈련으로 다양한 환경에서 명령을 수행할 수 있도록 안내하는 VLA 모델을 공개했다. 

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지