(사진=구글 딥마인드)
(사진=구글 딥마인드)

구글 딥마인드가 신발 끈을 매고 다른 로봇을 수리하는 등 로봇의 정교한 손기술을 가능케 하는 학습 플랫폼을 선보였다. 기존 대형언어모델(LLM)의 한계를 넘기 위해 이미지 생성 인공지능(AI)에 사용하는 확산(diffusion) 모델을 사용했다는 것이 차별점이다.

딥마인드는 12일(현지시간) '알로하 언리시(ALOHA Unleashed)'라는 새로운 학습 플랫폼과 '데모 스타트(DemoStart)'라는 시뮬레이션 프로그램에 대한 연구 결과를 발표했다.

이 연구들은 로봇의 AI 시스템이 시각적 데모를 통해 복잡하고 능숙한 손동작을 수행하는 방법을 배우는 데 도움이 된다는 설명이다.

지금까지 대부분의 AI 로봇은 한 팔을 사용해 물체를 집어 올리고 놓을 수 있었다. 하지만 딥마인드의 연구는 양팔의 시용하는 기술이다. 따라서 신발 끈을 매고, 셔츠를 걸고, 다른 로봇을 수리하고, 기어를 삽입하고, 주방을 청소할 수 있다고 강조했다.

알로하 언리시는 스탠포드대학교가 오픈 소스로 공개한 양손 원격 조작을 위한 저비용 오픈소스 하드웨어 시스템 '알로하'를 기반으로 구축됐다. 이는 로봇의 두손을 원격으로 조정, 훈련과 데이터 수집을 진행한다.

이어 로봇이 학습한 내용을 스스로 수행하기 위해 구글의 최신 이미지 모델 '이매진 3'의 확산 기술을 도입했다. 확산이란 데이터에서 노이즈를 제거하는 방식으로 이미지를 생성하는 방식이다. 즉, 로봇이 다음에 할 일을 구체적인 이미지 형태로 예측하도록 했다.

여러 손가락을 정교하게 컨트롤하기 위해서는 강화 학습 알고리즘을 도입한 데모스타트를 활용했다. 데모스타트는 먼저 쉬운 동작을 학습하고, 능숙도가 올라가며 더 어려운 동작을 익히는 방식을 사용한다. 이를 통해 적은 양의 데모를 학습하고도 능숙도를 올릴 수 있었다고 밝혔다.

그 결과, 로봇은 시뮬레이션에서 큐브를 맞추고, 너트와 볼트를 조이고, 도구를 정리하는 등 다양한 작업에서 98% 이상의 성공률을 달성했다고 밝혔다. 실제 환경에서는 큐브 재배치 및 들어올리기에서 97%, 높은 정밀성이 필요한 플러그-소켓 삽입 작업에서 64%의 성공률을 달성했다.

시뮬레이션에서의 로봇 학습은 실제 물리 실험을 실행하는 데 필요한 비용과 시간을 줄일 수 있다. 

하지만 연구진은 "시뮬레이션을 설계하는 것은 어렵고, 게다가 항상 실제 성능으로 성공적으로 변환되는 것은 아니다"라며 "강화 학습을 몇가지 데모에서 얻은 학습과 결합, 데모스타트의 점진적 학습으로 실제의 격차를 메울 수 있다"라고 주장했다.

또 쉐도우 로봇이라는 하드웨어 업체와 협력, '덱스-EE(DEX-EE)'의 손가락 3개로 현실 테스트를 진행했다.

이 방식은 기존 비전언모델(VLM)과 대형언어모델(LLM)만을 사용하던 방식보다 현실 세계에 더 적합하다고 밝혔다. LLM은 볼트를 조이거나 신발 끈을 묶는 방법을 알려줄 수는 있지만, 로봇이 이를 실제로 수행하는 것은 다른 문제라는 것이다.

연구진은 "언젠가 AI 로봇이 사람들이 집, 직장 등에서 온갖 일을 하는 데 도움을 줄 것"이라며 "이번 연구는 효율적이고 일반적인 학습 접근 방식을 통해 그 미래를 가능하게 하는 데 도움이 될 것"이라고 전했다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지