원래 속도보다 3배 빨리 달리는 사족보행 로봇 '스팟'과 파쿠르를 선보이는 로봇 자전거의 영상이 공개됐다. 이는 단순한 묘기를 넘어, 로봇 엔지니어링에 '강화학습(RL)'을 사용해 하드웨어 한계를 해결한 중요한 사례로 소개됐다.

RAI 연구소(Robotics and AI Institute)는 21일(현지시간) 현실 기반 RL을 통해 기존 로봇의 하드웨어 성능을 최대한 끌어 올리는 데 성공한 사례를 공개했다.

우선 보스턴 다이내믹스의 스팟은 최고 속도가 초속 1.6m에 불과하다. 그러나 RAI는 이를 3배나 빠른 초속 5.2m까지 끌어 올렸다. 그리고 그 비결을 RL이라고 밝혔다.

RL은 인공지능(AI) 시스템이 시행착오를 거치며 가장 보상을 많이 받을 수 있는, 측 최적화된 방식을 스스로 학습하는 방식이다. 최근 오픈AI와 딥시크가 추론 모델 개발에 사용한 핵심 사후 훈련법이기도 하다.

로봇에는 원하는 것을 하도록 보상 함수를 만들어 내서 적용할 수 있다. 또 이 방법을 사용했는데도 실패하는 것은 시뮬레이션 상황을 현실의 하드웨어에 적용할 때 문제가 생겼다는 말이다. 즉, 강화 학습은 시뮬레이터의 결함을 찾아내는 데 유용하다.

이처럼 실제 하드웨어에서 수집한 물리적 데이터를 시뮬레이션으로 다시 가져오는 방식으로 문제를 해결했다는 설명이다.

실제로 연구진은 스팟이 빨리 달릴 수 없는 이유가 로봇 메커니즘이나 액추에이터 성능 문제가 아니라는 것을 밝혀냈다. 배터리가 고속 주행 시 충분한 전력을 공급하지 못한다는 단순한 문제 때문이었다.

파보드 파르시디안 RAI 연구소 로봇공학자는 "당연히 액추에이터의 출력 문제가 가장 중요할 것으로 생각했는데, 결과는 놀라웠다"라고 밝혔다. 연구진은 스팟의 전력 공급 시스템을 손 본 결과, 속도를 3배로 끌어 올렸다.

UMV(Ultra Mobility Vehicle)라고 하는 자전거에도 스팟의 달리기에 사용된 것과 같은 RL 파이프라인를 적용했다. 이를 통해 주행과 균형 잡기를 통해 파쿠르를 하도록 훈련했다.

실제로 이 자전거에는 복잡한 추진 장치나 균형을 위한 안전장치가 별도로 적용되지 않았다. 자전거 상단에 질량을 추가, 액추에이터를 좀 더 강하게 작동하도록 조치했을 뿐이다.

마르코 후터 RAI 연구소 취리히 책임자는 "이 영상은 RL이 다양한 상황에서 UMV의 주행 기능을 매우 강력하게 만드는 데 어떻게 도움이 되는지를 보여준다"라며 "또 로봇의 동적 기능을 이해하면 높은 테이블 위로 점프하는 것과 같은 새로운 작업을 수행할 수 있다"라고 말했다.

또 "중요한 것은 로봇 시스템의 하드웨어가 기존의 고전적인 제어 알고리즘으로 달성할 수 있었던 것보다 훨씬 더 많은 것을 할 수 있다는 것"이라며 "이런 하드웨어의 한계를 이해하면 성능을 개선하고 제어의 경계를 계속 넓힐 수 있다"라고 강조다.

RAI 연구소는 보스턴 다이내믹스 CEO 출신이 설립한 로봇 전문 연구소다. 최근에는 보스턴 다이내믹스와 파트너십을 강화, 휴머노이드 '아틀라스' 개발에 힘을 모으기로 했다.

여기에는 이번 영상에서 보여준 이동성 강화와 전신 운동 조작 개선 등이 포함됐다. 물론 그 핵심은 RL이다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지