‘디플로머시’로 양자 대결서 승리하는 AI탈피···공동이익 반영한 추론·조정

여러 참여자 선호사항 고려해···계약협상·도시계획·물류교통 등 활용 기대

딥마인드가 AI로 하여금 협력과 타협을 통해 윈윈하는 방식을 도출하도록 교육시키기 위해 만든 ‘디플로머시’ 게임보드. AI를 교육시킨 후 상대와 겨뤄 반드시 승부를 보게 하는 제로섬 게임인 바둑이나 체스에서 한단계 더 나아가 윈윈게임의 결과를 가져오게 할 수 있을 것으로 기대를 모은다. 이 AI는 물류·도시계획·교통 등에 활용될 수 있을 것으로 기대를 모은다. (사진=딥마인드)
딥마인드가 AI로 하여금 공동이익 추론에 기반한 조정·협력·타협이라는 윈윈 방식을 도출하도록 교육시키기 위해 만든 ‘디플로머시’ 게임보드. AI를 교육시킨 후 상대와 겨뤄 반드시 승부를 보게 하는 제로섬 게임인 바둑이나 체스에서 한단계 더 나아갔다. 이를 바탕으로 훈련된 AI는 계약협상·도시계획·물류 교통 등에 활용될 수 있을 것으로 기대를 모은다. (사진=딥마인드)

딥마인드가 인공지능(AI)에게 협력과 타협을 교육시켜 여러 이익관계자들의 선호사항을 최대한 반영한 결과를 도출시키고 있다.

벤처비트는 10일(현지시간) 딥마인드가 ‘디플로머시(Diplomacy)’라는 게임보드로 AI를 교육시킴으로써 승패가 갈리는 기존 게임 AI에서 한단계 더 나아간 타협과 협력을 가르치고 있다며 이를 소개했다.

실제로 그동안 알파벳 자회사이자 구글 자매회사인 딥마인드는 머신러닝(기계학습)연구에 있어 체스, 바둑, 스타크래프트2, 몬테주마의 복수 등 승패를 내는 게임에서 인간을 추월하는 학습 성과를 보였다. 그러나 이 회사는 이제 이를 타협과 협상 차원으로 확장해 나가고 있다. 이같은 목적의 AI 교육용 게임이 ‘디플로머시(Diplomacy)’다. 윈윈을 꾀하도록 고안된 말그대로 ‘외교’ 게임인 셈이다.   

이제 딥마인드 연구원들은 ‘외교(Diplomacy)’가 AI가 강화학습을 하는 데 있어 유망한 새로운 방향, 즉 승패를 떠난 윈윈을 도출토록 하는 동기 부여를 해 줄 것으로 믿고 있다. 

이들은 프리프린트 서버인 아카이브(Arxiv.org)에 게재된 논문에서 ‘지속적인 개선’을 제공하면서 ‘디플로머시(Diplomacy)’ 게임 결과  높은 점수를 얻은 AI 시스템에 대해 설명했다.

디플로머시는 기본적으로 상대가 있는 기존의 2인을 대상으로 하는 제로섬 게임 대신 여러 상대를 대상으로 공통의 이익을 추론하고 조정해 타협을 이끌어 내는 AI라는 점에서 새롭다. 
 
딥마인드의 기존 AI 시스템은 헥스(Hex)게임, 장기, 포커와 같은 대규모의 복잡한 게임에서 강력하고 경쟁력있는 플레이를 했지만 이 중 대부분은 다른 플레이어의 패배해야 승리할 수 있는 2인용 제로섬 게임이다.

그러나 안타깝게도 이러한 빼어난 성과를 보여주는 AI에게도 단점이 있다. 즉 반드시 인간의 현실세계를 반영하지 않는다는 점이다.

예를 들면 혼잡한 도로를 둘러싼 교통노선 계획, 계약 협상, 그리고 고객과의 상호 작용과 같은 업무들을 처리하는 일은 제로섬 게임이 될 수 없다. 이 문제들을 해결하기 위해서는 모든 관련 당사자들의 선호가 어떻게 일치하고 충돌하는지에 대한 타협과 고려를 포함시킬 수 밖에 없다.

AI 소프트웨어(SW) 에이전트들이 이기적일 때에도 조정과 협력을 통해 공동의 이익을 얻을 수 있기 때문에 다양한 그룹 간 상호 작용은 타인의 목표와 동기 부여에 대한 복잡한 추론을 필요로 한다. (에이전트는 최대한의 보상을 얻기 위해 시행착오를 거치며 여러 번의 반복으로 가장 효율적인 길을 스스로 탐색하는 시스템을 말한다.)  

이를 훈련시키기 위해 고안된 딥마인드의 ‘디플로머시(Diplomacy)’ 게임은 7명의 플레이어(선수)가 유럽의 주(Province) 단위 지도 상에서 여러 단위부대(유닛)들을 제어토록 함으로써 AI에 이러한 상호작용을 강요한다.

디플로머시에서 ‘주’는 보급센터다. ‘유닛’들은 주를 점령함으로써 보급센터를 확보한다. 보급 센터를 더 많이 소유한 플레이어는 더 많은 유닛을 만들 수 있고, 보급센터 대부분을 소유하는 플레이어가 게임에서  승리한다.

매 게임마다 모든 플레이어들은 자신의 모든 부대를 동시에 34개 지역 중 한 곳으로 이동시켜야 하며, 하나의 유닛은 같은 플레이어나 다른 플레이어 소유의 다른 유닛을 지원함으로써 또다른 유닛의 저항을 극복하게 만들 수 있다. (대체로, 힘이 같은 유닛은 한 지방을 지탱하거나 인접한 공간으로 이동할 수 있다.)

유닛 간의 상호 의존성 때문에 플레이어들은 자신의 유닛 움직임에 대해 다른 플레이어들과 협상해야 한다. 그들은 다른 선수들의 움직임과 그들의 움직임을 조정함으로써 이익을 얻기 위해 대기하며, 다른 선수들이 어떻게 행동할지 예측하고 그들의 행동에 이러한 예상을 반영해야 한다.

저자들은 “우리는 속임수 행동의 등장과 발견을 연구하고...실제 세상에서 어떻게 그러한 행동을 완화시킬 수 있는지 알고 있다는 것을 확실히 하기 위해 디플로머시 같은  게임을 사용할 것을 제안한다”고 썼다. 이들은 “디플로머시에 관한 연구는 신뢰와 동맹을 수립하고 유지하는 것을 둘러싸고 발생하는 어려운 문제 해결을 포함하는, 타인과 성공적으로 협력할 수 있는 인공 에이전트를 만드는 길을 열어주게 될 것이다“라고 덧붙였다.

딥마인드는 어떤 노골적 소통도 허용되지 않는 ‘언론 없는’ 디플로머시 변종에 초점을 맞췄다.

이 AI는 SBR(Sampled Best Response)라는 접근법으로 정책 반복 기법을 사용해 일부 보상을 극대화해 주는 강화학습 에이전트들을 훈련시켰다. SBR는 가상플레이는 물론 플레이어 액션에 대한 거의 최고수준의 반응에 근접하는 정책 반복 기술을 가지고 많은 수의 액션(10⁶⁴)을 보여주는 플레이어들이 디프로머시를 받아들이도록 했다. 

딥마인드의 시스템은 이를 반복할 때마다 게임 데이터 세트를 생성하는데, 개선 운영자(improvement operator)로 불리는 모듈이 선택한 동작으로 이전 전략(정책)과 가치 함수를 사용해 이전 정책을 무너뜨리는 정책을 찾아낸다. 그런 다음, 게임 결과뿐만 아니라 개선 운영자가 선택할 행동을 예측하는 정책 및 가치 함수(기능)를 훈련한다.

앞서의 SBR은 반대자의 정책에 대항해 플레이어 시스템 에이전트의 예상 반응을 극대화해 줄  정책을 알아낸다. SBR는 다수 플레이어의 게임에서 SBR을 사용하도록 맞춤화된 알고리즘 제품군인 BRPI(Best Response Policy Iteration)와 결합돼 있다. 이 중 최고급의 것은 최신 BR만 예측하도록 정책을 훈련시키고, 현재의 경험적 전략을 제공하기 위해 역사적 체크포인트를 명시적으로 평균화해 제시한다. 

딥마인드는 이 시스템의 성능을 평가하기 위해 서로 다른 알고리즘의 6개 에이전트와 참조 코퍼스(말뭉치)에서 독립적으로 추출한 6명의 플레이어 간에 이뤄진 정면 대결 승률을 측정했다. 이 시스템의 승률은 특별히 높지 않았다. 각 게임의 평균 5개의 시드를 기록했는데 12.7~ 32.5%였다. 그러나 딥마인드는 이 시드들이 지도학습으로 훈련된 에이전트들에 비해 크게 향상됐다고 말한다.

딥마인드의 시스템에 의해 6개 에이전트가 제어되는 6대 1의 게임에서 특히 딥넷(Dip Net)이라는 알고리즘에 대한 딥마인드 에이전트들의 승률은 훈련을 통해 꾸준히 향상됐다.

시간에 따른 1대 6, 또는 6대 1 디플로머시 게임에서의 딥마인드 시스템 승률과 기준선 비교. 자료=딥마인드
시간에 따른 1대 6, 또는 6대 1 디플로머시 게임에서의 딥마인드 시스템의 딥넷 알고리즘에 대한 승률과 기준선 비교. 자료=딥마인드

향후 연구에서 연구자들은 에이전트 이용 가능성(exploitability)을 줄이고, 잠재적으로 커뮤니케이션을 통해 다른 사람들의 인센티브(동기)에 대해 추론하는 에이전트 구축 방법을 찾아 나설 계획이다.

저자들은 “‘디플로머시’에서 게임 플레이를 향상시키는 것은 이 게임의 복잡하게 혼합된 동기와 여러 플레이어의 측면을 조사하는데 있어서 필수 조건이다…디플로머시에 적용된 방법은 외교에 대한 직접적 영향을 넘어 비즈니스, 경제, 물류 영역 등에 적용될 수 있다…디플로머시나 유사한 게임에 사용될 전술적 기본 에이전트를 훈련하는 능력을 제공함에 있어 이 작업은-그것이 다른 기계와 함께든 인간과 함께든 간에-동맹을 결성할 능력이 있고 보다 진보된 커뮤니케이션 능력을 이용하는 에이전트 연구를 위한 길을 열어준다”고 말했다.

[AI & Tech] 페이스북, AI로 컴퓨터 코드 자유자재로 변환

[AI & Tech] “더 강력한 AI 강화학습”...딥마인드, 분산 프레임워크 ‘애크미’ 출시

키워드 관련기사
  • [이정태의 뒤뚱뒤뚱] 딥러닝도 사람처럼 진화할 수 있을까?
  • 규칙기반 AI vs 머신러닝...최적 활용 조건은?
  • 딥마인드 엔지니어가 알려준 입사 지원 팁 5가지