RT-스케치 실행 (사진=구글 딥마인드)
RT-스케치 실행 (사진=구글 딥마인드)

글이나 이미지 대신 손으로 그려낸 스케치의 지침을 따르는 로봇 제어 모델이 등장했다. 글이나 이미지로 표현하기 모호하고 부정확한 지침을 묘사하는 데에는 스케치가 효과적이라는 설명이다.

벤처비트는 11일(현지시간) 구글 딥마인드와 스탠포드대학교 연구진이 스케치를 사용해 로봇을 제어하는 모델 ‘RT-스케치(RT-Sketch)’를 개발했다고 전했다. 

언어는 목표를 지정하는 직관적인 방법이지만, 세부적이거나 정확한 조작 지시에는 불편할 수 있다. 따라서 로봇에 원하는 목표를 자세하게 묘사하는 데는 이미지가 효율적이다.

하지만 이미지를 만들기 어려운 경우가 많으며, 이미지가 있더라도 너무 많은 세부 정보가 포함되면 혼란을 일으킬 수 있다. 

따라서 목표 이미지로 훈련한 모델은 훈련 데이터에 과적합 될 수 있으며 다른 환경에서는 어려움을 겪을 수 있다는 지적이 나온다. 과적합이란 모델이 훈련 데이터에 대해서는 정확한 예측을 제공하지만, 새로운 데이터에 대해서는 기능을 발휘하지 못하는 것을 의미한다.

연구진은 “스케치에 대한 아이디어는 로봇이 이케아 같은 가구 조립 매뉴얼을 해석하고 필요한 조작을 수행할 수 있도록 하는 방법을 찾는 데에서 출발했다”며 "이런 종류의 공간 작업에서는 언어가 매우 모호한 경우가 많으며 원하는 목표 이미지를 사전에 사용할 수 없다"라고 말했다.

스케치는 목표를 간단하게 설명하고 풍부한 정보를 담을 수 있다는 장점이 있다. 또 자연어 명령으로는 표현하기 어려운 공간 정보를 제공할 수 있으며, 원하는 공간 배열의 특징꺼지 쉽게 제공할 수 있다. 동시에 모델이 어떤 객체가 작업과 관련돼 있는지 파악하는 방법까지 표시, 상황을 일반화하기에 용이하다.

RT-스케치는 자연어 명령을 입력으로 받아 로봇에 대한 명령을 생성하는 딥마인드의 'RT-1' 모델에서 자연어 입력을 스케치 및 이미지로 대체하도록 아키텍처를 수정했다. 

RT-스케치 훈련 (사진=구글 딥마인드)
RT-스케치 훈련 (사진=구글 딥마인드)

연구진은 물체 이동 및 조작, 캐비닛 열기 및 닫기 등과 같은 작업 비디오에서 훈련 사례를 선택, 사례별 목표 비디오 프레임에서 손으로 그린 ​​스케치를 만들었다. 그다음 목표 비디오 프레임과 손 스케치를 함께 사용해 이미지를 스케치로 자동 변환하는 이미지-스케치 생성 적대 신경망(GAN)을 훈련했다. 이 GAN을 사용해 RT-스케치 모델을 훈련하기 위한 목표 스케치를 생성하고, 추가로 색상 보강과 아핀(Affine) 변환 등으로 생성된 스케치를 보완했다. 

이렇게 만들어진 목표 스케치와 원본 기록을 사용해 RT-스케치를 훈련했다. 모델은 원하는 목표 이미지와 대략적인 스케치를 통해 목표를 이루기 위한 로봇 명령을 생성한다.

연구진은 "RT-스케치는 의도한 목표를 설명하는 것이 스케치보다 말로 설명하는 데 시간이 더 걸리는 공간 작업이나 이미지를 사용할 수 없는 경우에 유용할 수 있다"라고 말했다. 

예를 들어 "접시 옆에 식기를 놓아라"와 같은 언어 지시는 여러 종류의 포크와 나이프, 다양한 배치로 인해 모호한 명령이 될 수 있다. RT-스케치를 사용하면 정확한 지시가 가능해진다.

RT-스케치 실행 (사진=구글 딥마인드)
RT-스케치 실행 (사진=구글 딥마인드)

연구진은 물체를 서로 가깝게 이동하고, 캔을 옆으로 두드리거나 똑바로 세우며, 서랍을 닫고 여는 등 6가지 조작을 통해 RT-스케치를 평가했다.

그 결과, RT-스케치는 일반적이고 단순한 작업에서는 이미지나 언어 명령과 비슷한 성능을 나타냈다.

하지만 언어 지침으로 목표를 명확하게 표현할 수 없는 시나리오에서는 훨씬 성능이 뛰어났다. 또 환경이 어수선하고 복잡한 경우에도 이미지 기반 지침을 따르는 이미지 조건 모델에 비해 성능이 뛰어났다.

앞으로 연구진은 스케치의 폭넓은 응용 분야를 탐구할 예정이다. 또 언어, 이미지 및 인간 동작과 같은 다른 모드와 결합하는 방법을 검토할 것이라고 밝혔다. 

연구진은 "스케치는 화살표를 통해 동작을 전달할 수 있고, 부분 스케치를 통해 하위 목표를, 낙서를 통해 제약 조건을, 심지어 낙서한 텍스트를 통해 의미 라벨을 전달할 수 있는 등 장점이 많다"라고 설명했다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • 허깅페이스, 테슬라 출신 과학자와 오픈 소스 로봇 프로젝트 시작
  • 구글 딥마인드, LLM으로 '로봇 제스처' 생성하는 '젠EM' 공개
  • 메타, 10분 만에 집 구조 이해하고 자체 행동 가능한 로봇 프레임워크 공개