오픈AI, 마인크래프트 게임하는 AI 봇 개발...
AI 학습 인터페이스 비디오로 확장

오픈AI는 7만시간 분량의 마인크래프트 게임 비디오를 보고 마인크래프트 게임하는 AI봇을 만들었다.(사진=오픈AI)
오픈AI는 7만시간 분량의 마인크래프트 게임 비디오를 보고 마인크래프트 게임하는 AI봇을 만들었다.(사진=오픈AI)

오픈AI가 7만시간 분량의 마인크래프트(Minecraft) 게임 비디오를 보고 스스로 게임을 플레이 하는 인공지능(AI) 봇을 만들었다. 방대한 양의 비디오 데이터를 학습 데이터로 사용해 기계가 다양한 작업을 수행하도록 훈련하는 데 사용할 수 있는 새로운 기술이다.

25일(현지시간) MIT 테크놀로지 리뷰에 따르면 오픈AI는 복잡한 키보드 및 마우스 클릭 시퀀스를 수행해 나무 베기, 도구 제작 등의 마인드크래프트 게임 작업을 완료하는 방법을 학습한 마인크래프트 AI를 개발했다.

비디오를 활용해 사람이 작업을 수행하는 것을 관찰하고 신경망이  작업을 수행하는 방법을 훈련하는 모방 학습(Imitation Learning)의 길이 열렸다.

모방 학습은 '달리(DALL-E)'가 이미지 데이터를 활용해 학습을 수행하고 이미지를 생성하는 것처럼 다양한 작업을 수행하는 사람들을 보여주는 방대한 양의 온라인 비디오를 학습 데이터로 사용해 신경망이 사람과 같이 다양한 작업을 수행하도록 훈련할 수 있다.

예를 들어 모방 학습을 통해 AI가 로봇 팔을 제어하거나 자동차를 운전하거나 웹 페이지를 탐색하도록 훈련할 수 있다.

모방 학습의 문제점은 학습 데이터에 레이블이 지정되어야 한다는 것이다. 특히 비디오의 경우는 특정 행동을 하면 특정 일이 일어난다는 식으로 각 단계마다 레이블을 지정해야 한다. 손으로 레이블을 다는 것은 많은 시간이 필요한 작업이기 때문에 그러한 데이터 세트의 크기는 작을 수 밖에 없다.

마인크래프트 스크린샷(사진=마인크래프트)
마인크래프트 스크린샷(사진=마인크래프트)

오픈AI는 온라인에서 사용할 수 있는 수백만개의 비디오에 자동으로 레이블을 지정하기 위해 먼저 키보드 및 마우스 동작에 대한 레이블로 수작업으로 기록한 2000시간의 마인크래프트 비디오 데이터 세트를 만들었다.

그런 다음 비디오 화면상의 결과에 행동을 매핑시키기 위해  이 레이블이 지정된 데이터 세트를 VPT(Video Pre-Training)라고 하는 또 다른 신경망 모델을 훈련시켰다. 예를 들어 특정 화면에서 마우스 버튼을 클릭하면 캐릭터가 도끼를 휘두르게 된다.  

다음 단계는 훈련된 VPT 모델을 통해 인터넷에서 가져온 7만시간 분량의 마인크래프트 비디오에 레이블을 자동 지정한 다음  마인크래프트 AI 봇을 훈련시키는 것이다.

일반적으로 게임은 신경망이 시행 착오를 통해 처음부터 작업을 수행하는 방법을 학습하는 강화 학습 방법을 적용한다. 강화 학습은 바둑과 같이 게임에서 승리하기 위한 명확한 목표가 있는 작업에 가장 잘 작동하기 때문이다.

하지만 마인크래프트는 명확한 목표가 없는 게임이다. 플레이어는 컴퓨터로 생성된 세계를 돌아다니고 다양한 재료를 채굴하고 결합해 다양한 개체를 만드는 등 원하는 것을 자유롭게 할 수 있다. 

마인크래프트는 새로운 AI 기술의 중요한 테스트 베드가 되고 있다. 마인크래프트 AI 봇은 VPT를 사용해 판자를 테이블로 바꾸는 등 강화 학습만으로는 불가능했을 약 970개의 작업을 수행할 수 있다.

또 모방 학습과 강화 학습을 함께 사용할 때 최상의 결과가 나온다는 것을 발견했다. VPT로 훈련된 봇을 강화 학습으로 미세 조정해 2만개 이상의 작업을 수행할 수 있다.  

오픈AI는 이같은 접근 방식이 다른 작업을 수행하도록 AI를 훈련시키는 데 사용될 수 있다고 주장한다. 우선 키보드와 마우스를 사용해 웹 사이트를 탐색하고 항공편을 예약하거나 온라인으로 식료품을 구매하는 봇에 사용할 수 있다. 

그러나 마인크래프트와 같은 게임의 작업은 버튼을 눌러 수행되지만 실제 세계에서의 행동은 기계가 배우기에 훨씬 어렵고 복잡하다.

구글에서 다중 에이전트 강화 학습을 담당하는 나타샤 자크는 "대규모 인터넷 크기의 데이터 세트는 확실히 AI의 새로운 기능을 제공할 것"이라며 "그러나 오픈AI는 대규모 데이터 세트의 힘에만 의존하고 있다"고  덧붙였다.

그럼에도 불구하고 오픈AI는 “백만시간 이상의 마인크래프트 비디오를 수집하면 AI가 더욱 향상될 것이라고 생각한다. 지금까지 마인크래프트를 플레이하는 최고의 봇일 것"이라고 주장했다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • 간단한 트릭에 무너진 바둑AI '카타고'
  • 메타, 협상과 속임수로 전략 보드 게임하는 AI 개발
  • 구글, 스스로 생각해서 반응하는 AI로봇 공개