AI, 레트로 게임 진출…80년대 스크롤했던 탐사 게임 풀다 < AI기술 < 기사본문

AI로 풀기 어려웠던 80년대 Atari 2600 게임…'고익스플로어'로 해결
'고익스플로어', 이미 방문한 지역 아카이브를 구축하는 새 알고리즘
강화 학습 AI, '몬테수마의 복수' 게임에서 1억 8백만점 세계기록 달성
탐사 게임 AI 발전 과제, 통찰력 갖춰…재난구역 생존자 찾는 데 적용해야

이하나 기자
업데이트 2021.03.05 11:15
입력 2021.02.27 10:26
댓글 0

이 기사를 공유합니다

'팩맨'(Pacman), '함정 2'(Pitfall II) 등 아타리(Atari) 2600용 게임은 1980년대부터 유행했던 레트로 고전게임이다. '피트폴' 게임은 장애물 등 위험 요소가 도사리고 있는 미로를 탐험하다 마지막 라운드에서 황금왕관을 획득해야 깰 수 있다.

2019 년 8 월 미국 샌프란시스코 중고품 상점 창에 있는 Pitfall IIAtari 카트리지(사진=셔터스톡) — 2019년 8월 미국 샌프란시스코 중고품 상점에 있던 Pitfall II Atari 카트리지 (사진=셔터스톡)

이전부터 연구원들은 이와 같은 탐사 레트로 게임을 AI가 푸는 것에 도전하기 위해 다양한 알고리즘을 분석한 프로그램들을 고안해 왔다.

영국 BBC는 지난 25일(현지시간) 미국 코넬대학교(Cornell University) 논문을 통해 '팩맨', '함정'과 같은 다양한 탐사 고전 비디오 게임을 풀 수 있는 새로운 AI 알고리즘 제품군이 개발됐다고 알렸다.

이 논문은 '고익스플로어(Go-Explore) : 하드웨어 탐색 문제에 대한 새로운 접근 방식' 이라는 컴퓨터과학 기계학습(ML)분야의 논문으로 작년 11월 18일 최종 개정안을 발표했다.

이번 연구 결과 핵심은 '고익스플로어'라는 새 알고리즘을 개발한 것이다. '고익스플로어' 알고리즘은 구현 방식에 대한 다음 원칙을 가지고 있다.

'고익스플로어' 알고리즘 구현 방식 에 대한 원칙

첫째, 이미 경험했던 상태의 데이터를 보관, 기억한다.
둘째, 다시 탐험하기 좋은 중간 단계로 돌아가 새로운 영역을 이어 탐색한다.
셋째, 실현가능한 모든 수단을 엮어, 시뮬레이션을 통해 해결한다.

이런 원칙을 토대로 해결방식을 모방하는 학습을 통해 기존 데이터를 강화하고, 견고하게 해준다. 이는 하드웨어 탐색시 성능이 최대로 향상되는 효과를 준다.

'고익스플로어'를 적용해 1980년대 출시된 '몬테수마의 복수'(Montezuma's Revenge!) 게임을 시행하면 평균 43,000점 이상의 기록이 생긴다. 이는 이전에 있던 최신 AI 기술 대비 약 4배나 높아진 수치다.

또 '고익스플로어'로 사람이 공부하는 특정 분야의 전문화된 학문이나 지식을 딥러닝시켜 활용할 수 있다. 이렇게 딥러닝한 AI로 '몬테수마의 복수' 게임을 하면 최대 1억 8백만에 달하는 최고점수를 기록, 사람이 달성했던 세계 기록을 능가하게 된다.

'피트폴' 게임에 '고익스플로어'를 적용하면 알고리즘으로서는 최초로 기본 0점 이상의 점수를 매겨 준다. 또, 6점 만점의 평균 점수를 기록해 전문가 수준을 '훌쩍' 뛰어넘기도 한다.

'고익스플로어'는 이전 알고리즘의 내재적 동기 부여 접근 방식에 대한 문제를 제시했다. 해결방안을 찾는 동안 알고리즘이 여전히 탐색해야 할 잘 풀릴만한 영역을 잊을 수 있다는 것이다.

이것을 방문한 지역의 아카이브를 엮으면서 해결했다. 아카이브는 데이터를 기록, 보관해두는 것을 말한다. 이를 통해 알고리즘은 더 많은 탐색을 위한 지점이자 게임시 잘 풀릴만한 지점의 중간 단계로 돌아갈 수 있게 만들어줬다.

이는 훈련 과정시 이전에는 해결하지 못한 현상이나 사건을 수행해 실제 상황에 대한 결과를 예측하는 시뮬레이션을 활용한 하드웨어 탐색 문제에 대해 발전하고 있다는 것을 보여줬다.

이번 탐사 게임 알고리즘은 강화 학습 AI를 통해 이루어졌으며, 이를 확장시켜 AI가 재난구역에서 생존자를 찾는 문제에 대한 실마리도 찾을 수 있을 것으로 전망했다.

이에 최신 강화학습 알고리즘(RL Algorithms)의 '통찰력' 부분에 대한 새로운 연구 방향이 많이 제시되고 있는 것으로 알려졌다. AI 통찰력에 대한 부분은 AI에 대한 과학적이고, 사회적인 이해를 통해 사용자와 사회에 미치는 인공지능의 영향까지 생각한 것을 의미한다.

한편, '고익스플로어' 알고리즘 논문은 아드리엔 에코핏(Adrien Ecoffet), 주스트 후이징가(Joost Huizinga), 조엘 리먼(Joel Lehman), 케네스 스탠리(Kenneth O. Stanley), 제프 클룬(Jeff Clune) 등 5명의 연구원이 참여했다.

AI타임스 이하나 기자 22hnxa@aitimes.com

[관련기사] [특별 기획] AI, 저널리즘을 부탁해! ① : LSE 보고서 요약(번역)

[관련기사] “철통보안 비법 궁금하다면?” [특별기획 AI 2030] ⑦ 견고한 AI