AI는 디지털 휴머노이드 축구 선수를 제어하는 ​​​​방법을 배웠다. (사진=딥마인드)
AI는 디지털 휴머노이드 축구 선수를 제어하는 ​​​​방법을 배웠다. (사진=딥마인드)

구글의 딥마인드(DeepMind)가 축구하는 인공지능(AI) 휴머노이드를 개발했다. AI는 컴퓨터 시뮬레이션에서 사실적인 움직임으로 디지털 휴머노이드를 제어할 수 있다.

딥마인드는 사람이나 동물의 동작을 추적한 모션 캡처(MoCap) 데이터를 강화학습(reinforcement learning)을 통해 모방하는 방식으로 사실적인 움직임을 훈련하는 NPMP(Neural Probabilistic Motor Primitives) 모델을 개발했다고 1일 블로그에 공개했다.

모션 캡처 궤적을 모방하는 방법을 배우는 에이전트(회색으로 표시).(사진=딥마인드)
모션 캡처 궤적을 모방하는 방법을 배우는 에이전트(회색으로 표시).(사진=딥마인드)

NPMP 모델은 짧은 운동 의도를 낮은 수준의 제어 신호로 변환하는 범용 모터 제어 모듈이며, 미래의 궤적을 가져와 모터 의도로 압축하는 인코더와 에이전트의 현재 상태 및 운동 의도가 주어지면 다음 작업을 생성하는 하위 수준 컨트롤러로 구성된다.

훈련 후에는 저수준 컨트롤러를 재사용하여 새로운 작업을 학습할 수 있다. 여기서 고수준 컨트롤러는 모터 의도를 직접 출력하도록 최적화된다. 이는 무작위로 샘플링된 운동 의도에서도 일관된 행동이 생성되기 때문에 효율적인 탐색을 가능하게 하고 최종 솔루션을 제한한다.

NPMP 모델은 먼저 참조 데이터를 저수준 컨트롤러(왼쪽)로 추출한다. 그 다음 이 저수준 컨트롤러를 새 작업(오른쪽)에서 플러그 앤 플레이 모터 제어 모듈로 사용할 수 있다. (사진=딥마인드)
NPMP 모델은 먼저 참조 데이터를 저수준 컨트롤러(왼쪽)로 추출한다. 그 다음 이 저수준 컨트롤러를 새 작업(오른쪽)에서 플러그 앤 플레이 모터 제어 모듈로 사용할 수 있다. (사진=딥마인드)

첫 번째 단계에서는 축구하는 인간의 모션 캡처 비디오 클립을 모방해 디지털 휴머노이드가 자연스럽게 달릴 수 있도록 훈련했다. 두 번째 단계에서는 AI가 공에 가까이 있는 것에 대해 보상하는 강화학습을 통해 드리블과 공 차는 연습을 한다.

처음 두 단계는 약 1.5년 분량의 시뮬레이션 훈련 시간이 필요했으며 AI는 약 24시간 만에 이를 완료했다. 그러나 움직임과 볼 제어를 넘어선 더 복잡한 동작은 5년 간의 시뮬레이션 축구 경기 후에 나타나기 시작했다. 

딥마인드의 니콜라스 히스는 "그들은 협력을 배웠고 이전에 훈련으로 명시적으로 설정하지 않은 동작 기술도 배웠다"라고 말했다.

멀티 에이전트 RL을 사용하여 경쟁적으로 축구를 배우는 에이전트.(사진=딥마인드)
멀티 에이전트 RL을 사용하여 경쟁적으로 축구를 배우는 에이전트.(사진=딥마인드)

세 번째 단계에서는 디지털 휴머노이드가 2:2 경기에서 골을 넣는 데 도전했다. 패스를 받을 위치를 예측하는 것과 같은 팀워크 기술은 약 20년에서 30년 분량의 시뮬레이션된 경기를 통해 나타났다. AI는 2주에서 3주의 훈련 시간이 필요했다. 

이를 위해 플레이어가 경기장에서 얼마나 자주 득점에 유리한 위치에 있는지를 측정했다. 평가 결과 디지털 휴머노이드의 오프볼 득점 기회가 점점 증가하는 것으로 나타났다. 액션은 컴퓨터 게임 처럼 보이지만 플레이어가 스스로 결정을 내리기 때문에 더 현실적이다. 

이러한 시뮬레이션은 즉시 화려한 축구를 하는 로봇으로 이어지지 않으며 말 그대로 시뮬레이션에 적용된다. 학습 시간이 길기 때문에 실제 축구 로봇으로 작업을 직접 옮기는 것이 더 어렵기 때문이다.

그러나 딥마인드는 실제 로봇에게 목표물을 향해 공을 밀어내는 방법을 가르치기 시작했으며 동일한 AI 훈련 전략이 축구 외에도 적용되는지 조사할 계획이다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]딥마인드, 단백질 구조 솔루션으로 인류에 선물

[관련기사]딥마인드, AI에 영상으로 물리 법칙 가르쳐 성능 향상

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지