학습하지 않은 환경에서도 ‘승리’전략 세우는 능력 갖춰
계획에 중요한 3요소 값, 정책, 보상 모형화
바둑, 체스 등 4게임으로 실험… 모두 초인간적인 수준 발휘
강화 학습과 범용 알고리즘의 추구에 있어 상당한 발전

딥마인드가 개발한 AI 유형, 각 AI별로 숙달한 게임, AI에 주입해야 하는 데이터 (사진=딥마인드 블로그) 
딥마인드가 개발한 AI 유형, 각 AI별로 숙달한 게임, AI에 주입해야 하는 데이터 (사진=딥마인드 블로그) 

딥마인드는 지난 2016년 사람과의 바둑 대국에서 최초로 승리한 인공지능(AI) 알파고를 선보였다. 그로부터 2년 뒤 후속 AI 알파제로는 바둑, 체스, 일본판 장기 쇼기를 처음부터 배우기 시작했다.

딥마인드는 범용 알고리즘 활용 측면에서 한층 진보한 ‘뮤제로(Muzero)’를 국제 과학 학술지 네이처(Nature)에 23일(현지시간) 소개했다. 뮤제로는 사전에 학습되지 않은 환경에서도 승리할 수 있는 전략을 세울 수 있는 능력 덕분에 바둑, 체스 규칙을 사전에 입력할 필요 없이 이 게임들에 숙달한다.

연구진은 지난 몇 년간 환경을 설명하는 모델을 학습할 수 있는 방법을 모색해 왔으며 해당 모델을 사용해 최상의 작업 과정을 계획해 왔다. 지금까지 대다수 접근 방식은 아타리 게임처럼 규칙이 잘 알려지지 않은 게임에서 효과적으로 승리하는 방법을 찾기 위해 노력해 왔다.

2019년 예비 논문에 처음 소개된 뮤제로는 승리전략 설계를 위해 환경의 가장 중요한 측면에 초점을 맞춘 모델을 학습함으로써 이 문제를 해결한다. 뮤제로는 이 모델을 알파제로의 강력한 ‘미리보기 검색(lookahead tree search)’와 결합함으로써 아타리 벤치마크 시험에서 유의미한 결과를 일구었으며 동시에 바둑, 체스, 쇼기와 같은 고전게임에서 이전 버전 AI 알파제로 수준 성능을 가지게 됐다. 뮤제로는 이로 인해 강화학습 알고리즘 역량에 있어 큰 폭으로 진일보했음을 드러냈다.

◆ 전체환경 모형화 대신 결정에 중요한 측면 모형화 

계획하는 능력은 인간 지능의 중요한 부분이며 우리가 문제를 해결하고 미래에 관한 결정을 내릴 수 있게 한다. 일례로 만약 사람이 먹구름 낀 하늘을 보게 되면 비가 오리라 예측하고 외출하기 전에 우산을 가져가야 한다는 생각을 행동에 옮길 수 있다. 사람은 이 능력을 빨리 배워서 새로운 시나리오로 일반화할 수 있다. 알고리즘이 가지고자 하는 특성이다.

연구진은 미리보기 검색 혹은 모델기반 계획 등 두 가지 주요 접근 방식을 사용해 AI의 주요 과제를 해결하고자 노력했다.

알파제로와 같이 미리보기 검색을 사용하는 시스템은 체커, 체스, 포커와 같은 고전적인 게임에서 괄목할 만한 성공을 거두었지만 게임 규칙 같은 기본환경에 대한 지식을 집어넣어야 했다. 이는 AI를 단순한 규칙으로 분류하기 어려운 현실세계 문제에 적용하는 것을 어렵게 만든다.

모델 기반 시스템은 환경 (모델)을 정확히 학습한 문제를 해결하는 것을 목표로 한다. 반면 환경의 모든 측면을 구조화ᆞ모형화(모델링)하는 건 무척 복잡해서 이러한 알고리즘이 아타리 게임처럼 시각적으로 ‘풍부한’ 분야에서 문제를 해결하기 어렵게 되어 있다.

뮤제로는 이전 접근법 한계를 극복하기 위해 다른 접근법을 사용한다. 뮤제로는 전체 환경을 구조화하는 대신 의사결정 절차에 중요한 측면만 모형화한다. 우산이 사용자를 비에 젖지 않게 하는 게 공기 속 빗방울 패턴 모형화보다 더 효용이 많다는 것을 아는 게 중요하다.

뮤제로는 계획에 중요한 세 가지 환경 요소 ▲값, 현재 위치가 얼마나 양호한가 ▲정책, 어떤 조치를 취하는 것이 가장 좋을까 ▲보상, 마지막 행동이 얼마나 좋았는가를 모형화한다.

이 세 요소는 모두 심층 신경망을 사용해 학습된다. 어떤 행동을 취할 때 무슨 일이 일어나는지 뮤제로가 이해하고 그에 따라 계획을 세우는 데 필요한 모든 것이다.

아타리 게임에서 초당 2억 혹은 200억 프레임 속도로 연습 당시 측정한 아타리 성능. 뮤제로는 두 환경 모두 사람을 뛰어넘는 성적을 나타냈으며 사람 검사자 성능을 100%라고 설정했을 시 뮤제로는 위와 같은 성능을 드러냈다. (사진=딥마인드 블로그)
아타리 게임에서 초당 2억 혹은 200억 프레임 속도로 연습 당시 측정한 아타리 성능. 뮤제로는 두 환경 모두 사람을 뛰어넘는 성적을 나타냈으며 사람 검사자 성능을 100%라고 설정했을 시 뮤제로는 위와 같은 성능을 드러냈다. (사진=딥마인드 블로그)

뮤제로의 성능 

딥마인드는 뮤제로 기능을 시험하기 위해 네 가지 게임으로 실험했다. 바둑, 체스, 쇼기는 어려운 계획 문제에 대한 성능을 평가하는 데 사용했고 시각적으로 더 복잡한 문제에 대한 기준 설정을 위해 아타리 게임을 활용했다.

뮤제로는 아타리 제품군 모든 경우에서 이전 AI 알고리즘 알파제로를 능가했고 바둑, 체스, 쇼기 종목에서도 여전히 이전 AI 알고리즘 수준의 초인적인 성능을 자랑했다.

딥마인드는 뮤제로가 학습된 모델로 얼마나 잘 계획할 수 있는지 자세히 시험했다. 바둑의 전형적인 정밀도 계획 문제로 시험은 시작됐다. 바둑은 ‘한 수’로 승패가 갈릴 수 있다. 딥마인드는 더 많은 계획이 더 나은 결과로 이어진다는 가설을 확인하기 위해 각 수별로 더 많은 시간을 계획에 할애할 경우 완전히 훈련된 뮤제로가 얼마나 좋은 성능을 발휘할 수 있는지를 측정했다.

그 결과, 한 수에 드는 AI의 계획시간을 1/10초에서 50초로 늘리면서 경기력이 1000엘로(Elo) 이상 향상했다. 이는 강한 아마추어 선수와 가장 강한 프로 선수의 실력 차와 비슷하다. 엘로는 선수의 상대적인 실력을 나타내는 지표를 뜻한다.

왼쪽: 뮤제로가 동작 당 계획할 수 있는 시간이 늘수록 경기를 더 잘하는 것으로 나타난다. 뮤제로는 실제 프로 바둑기사 기보 데이터를 가진 알파제로와 거의 비슷한 수준의 성능을 발휘했다.오른쪽: 아타리 게임 미스팩맨에서 뮤제로 알고리즘 수당 훈련시간을 늘리면 늘릴수록 더 좋은 수를 두는 것으로 확인된다.​ ​​​​​​(사진=딥마인드 블로그) 
왼쪽: 뮤제로가 동작 당 계획할 수 있는 시간이 늘수록 경기를 더 잘하는 것으로 나타난다. 뮤제로는 실제 프로 바둑기사 기보 데이터를 가진 알파제로와 거의 비슷한 수준의 성능을 발휘했다.오른쪽: 아타리 게임 미스팩맨에서 뮤제로 알고리즘 수당 훈련시간을 늘리면 늘릴수록 더 좋은 수를 두는 것으로 확인된다.​ ​​​​​​(사진=딥마인드 블로그) 

계획 수립이 훈련기간 동안 이점을 제공하는지 시험하기 위해 딥마인드는 별도로 훈련 받은 뮤제로 인스턴스를 사용해 아타리 게임 미스 팩맨(Ms Pac-Man)에 대한 실험을 진행했다. 각 그룹은 이동당 계획 시뮬레이션 수를 5개에서 최대 50개까지 고려했다. 그 결과 뮤제로는 각 이동에 대한 계획량을 늘려 학습 속도를 높이고 최종 성능을 향상할 수 있다는 것을 확인했다.

흥미롭게도, 뮤제로는 미스 팩맨에서 할 수 있는 모든 이동별 시뮬레이션 경우의 수보다 훨씬 적은 숫자인 6~7개만 고려해도 여전히 좋은 성과를 거뒀다. 이는 뮤제로가 동작과 상황 사이를 일반화할 수 있고 효과적으로 배우기 위해 모든 가능성을 철저히 검색할 필요가 없다는 것을 암시한다.

뮤제로의 환경 모델을 학습하고 성공적으로 계획하는 데 이를 사용하는 능력은 강화 학습과 범용 알고리즘의 추구에 있어 상당한 발전을 나타낸다. 뮤제로의 전신인 알파제로는 이미 화학, 양자 물리학, 그 외 복잡한 문제에 적용됐다. 뮤제로의 강력한 학습ᆞ계획 알고리즘은 ‘게임 규칙’을 메뉴얼화 해 로봇 공학, 산업 시스템, 기타 환경에서 새로운 도전을 향한 길을 닦을 수 있다.

 

AI타임스 문재호 기자 jhmoon@aitimes.com

[관련기사] 딥마인드 “50년 묵은 과제 해결했다”...알파폴드2로 코로나19 바이러스 단백질 구조 예측

[관련기사] “엔씨소프트 AI는 알파고와 달라...잘 지는 AI 만든다”

키워드 관련기사
  • “인간 뇌 진화 과정 모방해 새로운 강화학습 알고리즘 구축”...고려대 이성환 교수 인터뷰
  • IBM이 하자는 'AI 팩트시트' 는 뭘까?...내년부터 왓슨 스튜디오에 상용화
  • [글로벌 Lab 젊은 과학자] 알파고를 넘어 새로운 강화학습 세계를 연다...딥마인드 오준혁 박사