강화학습(RL)을 통해 1시간 만에 시뮬레이터 없이 스스로 걷는 방법을 깨우친 로봇개의 모습. (영상=Danijar Hafner 유튜브 채널).
강화학습(RL)을 통해 1시간 만에 시뮬레이터 없이 스스로 걷는 방법을 깨우친 로봇개의 모습. (영상=Danijar Hafner 유튜브 채널).

로봇개가 허공을 향해 다리를 거칠게 흔들며 일어나려고 발버둥을 친다. 10분 동안 안간힘을 쓴 끝에 간신히 구르는 데 성공. 하지만 여전히 일어나진 못한 채 사투가 이어진다. 30분 뒤 로봇개는 갓 태어난 송아지처럼 간신히 몸을 가누며 서툴게 첫 발걸음을 뗀다. 아직은 많이 어색한 모양이다. 하지만 불과 1시간 만에 연구실 안을 의기양양하게 활보하는 로봇개다.

이 로봇개가 특별한 점은 이 모든 과정을 시뮬레이터 없이 혼자 스스로 깨우쳤다는 것. 컴퓨터 시뮬레이션을 통해 어떻게 해야 하는지 보여준 적도 없다. 인공지능(AI) 기술은 이처럼 로봇이 새로운 기술을 배우고 현실세계에 빠르게 적응하는 데 도움을 줄 수 있다. 미국 캘리포니아대학 버클리캠퍼스(UCB) 연구진이 최근 ‘강화학습(RL)’이라 불리는 AI 기술을 사용해 로봇개가 스스로 걸음마를 깨우치도록 하는 데 성공했다고 MIT 테크놀로지 리뷰가 18일(현지시간) 보도했다.

※ 강화학습(RL, Reinforcement Learning) : 현재 상태를 인식해 선택 가능한 행동들 가운데 보상을 최대화하는 행동이나 행동 순서를 선택하는 등 어떤 행동을 취하는 것이 최적인지 학습하는 기계학습(ML) 방법론 중 하나다.

연구팀은 ‘드리머(Dreamer)’라는 알고리즘을 토대로 강화학습을 활용해 실제 환경에서 로봇개가 걸을 수 있도록 훈련시켰다. (영상=Danijar Hafner 유튜브 채널).
연구팀은 ‘드리머(Dreamer)’라는 알고리즘을 토대로 강화학습을 활용해 실제 환경에서 로봇개가 걸을 수 있도록 훈련시켰다. (영상=Danijar Hafner 유튜브 채널).
 (영상=Danijar Hafner 유튜브 채널).
(영상=Danijar Hafner 유튜브 채널).

연구팀은 ‘드리머(Dreamer)’라는 알고리즘을 사용해 강화학습으로 실제 환경에서 로봇개가 스스로 걷는 법을 터득할 수 있도록 훈련시켰다. 통상적으로 강화학습을 통해 로봇을 가르치려면 많은 시행착오를 거쳐야 하기 때문에 긴 훈련 시간이 필요하다. 이에 로봇은 현실세계에서 어떤 행동을 시도하기 전 컴퓨터 시뮬레이터에서 미리 훈련을 받는다. 앞서 강화학습을 통해 스스로 걷는 법을 배운 로봇의 사례가 있었지만, 당시에는 사전 시뮬레이션을 거쳐 이뤄진 결과였다.

문제는 시뮬레이터가 현실세계만큼 정확하지 않다는 점이다. 시뮬레이터에서 실행한 뒤 막상 복잡한 실제 환경에 적용해보면 항상 놓치고 간과하는 부분이 있다는 게 연구팀의 설명이다. 그런데 드리머 알고리즘의 경우 과거 경험을 토대로 모델을 구축해 심층 강화학습으로 매우 짧은 시간 내 로봇에게 새로운 기술을 가르칠 수 있다. 로봇의 잠재적인 행동에 대한 미래 결과를 예측함으로써 실제 세계가 아닌 컴퓨터 프로그램에서 시행착오를 계산할 수 있어 더 빨리 배우도록 돕는다.

드리머 알고리즘은 로봇에게 현실에서 기술을 배우는 방법이나 하드웨어 장애와 같은 상황에 대처‧적응하는 방법을 가르치는 데 유용할 수 있다. 예를 들어 로봇은 한쪽 다리에 고장난 모터를 달고서도 걷는 법을 배울 수 있다. 이 같은 차세대 강화학습 알고리즘의 접근방식은 향후 복잡하고 값비싼 시뮬레이터를 필요로 하는 자율주행 등의 다양한 분야에서도 무궁무진한 가능성을 열어줄 것으로 보인다.

미국 캘리포니아대학 버클리캠퍼스(UCB) 연구진이 최근 ‘강화학습(RL)’이라 불리는 AI 기술을 사용해 1시간 만에 로봇개가 스스로 걸음마를 깨우치도록 하는 데 성공했다. (영상=Danijar Hafner 유튜브 채널).

물론 아직 해결해야 할 과제도 많다. 강화학습을 위해서는 로봇이 수행해야 할 작업과 문제에 대해 어떤 행동이 옳아 보상을 받을 수 있는지 혹은 어떤 행동이 바람직하지 않은지를 코드에 구체적으로 지정‧명시해야 한다. 예를 들어 로봇개가 몸을 뒤집고, 걷는 행동은 좋지만 걷지 않는 행동은 바람직하지 않다는 식으로 말이다. 이는 굉장히 많은 시간이 걸리는 작업이다. 아울러 예상치 못한 상황에 대한 행동을 프로그래밍하는 일도 쉽지 않다.

연구진은 향후 로봇이 음성 명령을 이해할 수 있도록 가르치고 카메라 연결을 통해 볼 수 있도록 할 계획임을 시사했다. 그렇게 된다면 로봇이 방으로 걸어가거나 물건을 찾을 수도 있고 실제 강아지와 놀 때처럼 장난감 공을 던져 가져오라고 시킬 수도 있는 등 로봇에게 복잡한 실내 상황에 대처할 수 있는 능력을 길러줄 수 있을 것으로 기대된다.

AI타임스 윤영주 기자 yyj0511@aitimes.com

[관련기사] 당근으로 로봇 길들이기…구글, 로봇 보행을 위한 강화학습 기술

[관련기사] "나처럼 찍어봐"...미학 이해하는 AI 로봇 사진사 등장

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지