직장에서 상사가 업무를 수행하는 방법을 보여주면서 신입사원을 교육시키듯 로봇도 가르칠 수 있을까? 자율주행자동차 시스템도 운전자가 주행하는 모습을 보면서 도로에서 안전하게 운전하는 법을 배울 수 있다.
19일(현지시간) 테크 익스플로어(Tech Xplore)에 따르면 미국 서던캘리포니아대(USC) 연구진은 로봇이 아주 적은 수의 데모(시연‧demonstration), 심지어 불완전한 데모를 가지고도 복잡한 과제를 자율적으로 학습할 수 있는 시스템을 설계했다.
이번에 연구진이 개발한 시스템은 각 데모의 품질 평가를 통해 작동한다. 시스템은 성공뿐만 아니라 실수로부터도 학습한다. 기존 방법으로는 특정 과제를 해결하는 데 최소 100개의 데모가 필요한 반면, 이번 새로운 방법의 경우 로봇은 소수의 데모만으로도 더 직관적으로 학습할 수 있다. 완벽하게는 아니더라도 불완전하게나마 작업을 수행하는 모습을 지켜보면서 이를 통해 배울 수 있다는 말이다.
연구진은 “많은 기계학습(ML)‧강화학습(RL) 시스템은 방대한 양의 데이터와 수백 개의 데모를 필요로 한다”며 “반복해서 이를 시연할 수 있는 사람이 필요하나 현실적으로 불가능하다”고 말했다. 이어 “대부분의 사람은 로봇이 무엇을 해야 하는지 명시적으로 말할 수 있는 프로그래밍 지식을 가지고 있지 않고, 로봇이 알아야 할 모든 것을 시연할 수도 없다”고 덧붙였다.
연구진은 신호시간논리(STL)를 통합해 데모의 품질을 평가하고 자동적으로 데모의 순위를 매기는 시스템을 만들었다. 다시 말해 데모의 일부분이 논리적 요건에 근거해 앞뒤가 맞지 않더라도, 이 새로운 방법을 사용하면 로봇은 불완전한 부분에서도 학습할 수 있다.
로봇이 각기 다른 종류의 데모에서 학습한다고 가정해보자. 실제로 직접 해보는 시연일수도 있고 비디오 영상이나 시뮬레이션일 수도 있다. 만약 내가 매우 위험한 일을 한다면, 일반적 접근법에서는 두 가지 선택지가 있다. 완전히 무시하거나 로봇이 잘못된 것을 배우는 경우다.
반면 해당 시스템은 상식적인 추론을 통해 데모의 어느 부분이 좋고 좋지 않은지를 파악한다. 마치 인간처럼 말이다. 누군가 정지 신호를 무시하고 지나가는 운전 데모를 예로 들어보자. 시스템은 모범적인 운전자의 데모보다 낮은 등급을 매길 것이다. 하지만 해당 데모에서 운전자가 충돌을 피하기 위해 브레이크를 밟는 등의 행동을 보이면, 로봇은 이 같은 현명한 행동을 배울 것이다.
신호시간논리(STL)는 현재와 미래의 결과에 대한 로봇 추론을 가능하게 하는 수학적인 상징 언어다. 이 분야에 대한 이전 연구에서는 주로 ‘선형시간논리(LTL)’가 사용돼왔으나, 이번 연구의 경우 STL이 더 적합하다는 게 연구진의 설명이다.
시간이 핵심적인 로봇과 자율주행자동차 등의 사이버 물리시스템에서 LTL는 변수에 대한 참‧거짓 값의 순서를 판단하기 때문에 다소 복잡하고 번거로워진다. 그러나 STL은 물리적 신호에 대해 추론한다.
이 시스템은 마인크래프트(Minecraft)식 게임 시뮬레이터를 사용해 테스트됐다. 연구진은 시스템을 테스트한 결과 매우 고무적인 성과를 보였다고 밝혔다. 아울러 해당 시스템이 운전 시물레이터와 비디오 영상에서도 학습할 수 있다고 전했다. 다음 단계로 연구진은 실제 로봇으로 시험할 계획이다.
향후 이러한 접근법이 로봇 시스템에 통합된다면 데모를 통한 효율적 학습이 가능해 협업 과제에서 효과적으로 인간 팀원들을 도울 수 있을 것으로 기대된다. 연구논문 ‘신호시간논리(STL)를 이용한 데모 학습(Learning from Demonstrations Using Signal Temporal Logic)’은 지난 18일 로봇 학습 컨퍼런스(CoRL)에서 발표됐다.
[관련기사] [스페셜리포트]④ 자율주행차의 눈이 된 비전 AI
