특정 에이전트가 예측해야 할 사항·정책 개선 위한 예측 활용법 공동발견 학습 틀

LPG로 훈련받은 에이전트들, 수작업 개발 강화학습 요소 의존없이도 ‘초인적 성과’

데이터 처리 방식에서 발견 과정 자동화···새 강화학습 알고리즘 발견 가속 기대 ↑

강화학습 연구 패러다임 전환 예고···수작업 알고리즘 개발→적절한 환경들 구축

학습된 정책 경사(LPG) 이용, 효과있는 행동 로그확률 ↑효과없는 행동 로그확률 ↓

복잡한 아타리 게임에 적용·평가···간단한 환경으로 구성됐음에도 ‘꽤 잘’ 일반화

딥마인드가 AI를 이용, 수작업에 의존하던 강화학습 알고리즘 생성을 자동화하는 데 성공했다. 사진=딥마인드
딥마인드가 AI를 이용, 수작업에 의존하던 강화학습 알고리즘 생성을 자동화하는 데 성공했다. 사진=딥마인드

딥마인드가 인공지능(AI)을 이용해 강화학습 AI알고리즘 생성 자동화 기술을 개발했다.

이 알고리즘은 단순한 환경에서 학습하도록 설계됐지만 훈련 환경 수 증가 시 일반화 성능을 가속화하는 것으로 나타났다. 더 큰 환경을 적용하면 범용 강화학습 알고리즘을 발견하는 것도 가능할 것으로 기대된다.

벤처비트는 20일(현지시간) 딥마인드가 자체 개발한 인공지능(AI)으로 강화학습 알고리즘 생성을 자동화하는 데 성공했다고 보도했다.  

연구진은 “이 접근방식은 데이터를 따라 처리하는 방식(data-driven way)에서 AI알고리즘 발견 과정을 자동화함으로써 새로운 강화 학습 알고리즘 발견 과정을 획기적으로 가속화할 수 있는 잠재력을 가지고 있다”고 평가하고 있다.

보도에 따르면 인쇄전 논문 서버인 아카이브(Arxiv.org)에 발표된 이 연구논문에는 딥마인드 연구진이 이처럼 환경과의 상호작용을 통해 무엇을 예측하고 어떻게 학습할지를 알아내는 강화학습 알고리즘 생성 자동화 기법을 설명하고 있다. 

딥마인드의 솔루션은 특정 에이전트가 예측해야 할 사항과 정책 개선을 위한 예측을 어떻게 활용할 것인가를 공동으로 발견하는 메타 학습 프레임워크다.(강화 학습에서 ‘정책’은 주어진 시간 내의 학습 에이전트 행동 방식을 규정한다.)

강화 학습(Reinforcement learning)은 AI 기계학습의 한 영역으로서 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식해, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 정책이라고 부르는 최상의 전략은 주어진 상황에서 에이전트가 어떤 행동을 해야 할지 정의한다.

강화학습 알고리즘은 여러 규칙 중 하나에 따라 에이전트의 매개변수를 업데이트한다. 이러한 규칙은 대개 수년 간의 연구를 통해 발견되며, 데이터로부터 발견을 자동화하는 것은 보다 효율적인 알고리즘, 또는 특정 환경에 더 잘 적응하는 알고리즘으로 이끌 수 있게 된다. 


이들의 아키텍처인 학습된 정책 경사(Learned policy Gradient, LPG)는 업데이트 규칙(즉, 메타 학습자)이 에이전트 출력이 예측해야 할 사항을 결정할 수 있도록 하는 한편, 프레임워크는 각각 다른 환경과 상호 작용하는 여러 학습 에이전트를 통해 규칙을 발견한다. 정책 경사(Policy Gradient) 알고리즘은 효과가 있는 행동에 대한 로그 확률을 높이고 이점이 없는 행동은 로그 확률을 낮춘다.

연구진은 자신들의 AI가 생성한 알고리즘이 아타리 비디오 게임에 도전하는 수준의 범위에서 잘 작동해 이 기법의 일반성을 나타내는 ‘중대한(non-trivial)’ 성능을 달성했다고 말한다.

연구진은 실험에서 LPG를 투탕캄(Tutankham), 브레이크아웃(Breakout), 야스의 리벤지(Yars’ Revenge) 같은 복잡한 아타리 게임에서 직접 평가한 결과, 이들의 훈련 환경이 아타리 게임보다 훨씬 간단한 기본적 임무를 가진 환경으로 구성됐음에도 기존 알고리즘과 비교했을 때 ‘꽤 잘(reasonably well)’ 이 게임들에 일반화된다는 것을 발견했다. 게다가 LPG로 훈련받은 에이전트들은 손으로 직접 설계한 강화학습 요소에 의존하지 않고 14가지 게임에서 ‘초인적’ 성과를 거두었다.

공저자들은 LPG가 일부 고급(advanced) 강화학습 알고리즘에 여전히 뒤처져 있다고 지적했다. 그러나 실험 기간 동안 훈련 환경의 수가 증가함에 따라 LPG의 일반화 성능이 빠르게 향상되면서 일단 메타 훈련에 더 큰 환경을 적용하게 되면 범용(general-purpose) 강화학습 알고리즘을 발견하는 것이 가능할 수 있다는 것을 시사했다.

연구진은 “제안된 접근방식은 데이터를 따라 처리하는 방식에서 발견 과정을 자동화함으로써 새로운 강화 학습 알고리즘 발견 과정을 획기적으로 가속화할 수 있는 잠재력을 가지고 있다”며 “제안된 연구방향이 성공한다면 이는 연구 패러다임을 수작업 강화학습 알고리즘 개발에서  적절한 환경들을 구축하는 쪽으로 전환시키면서 그에따른 알고리즘을 효율적이 되게 할 수 있을 것”이라고 썼다.

이들은 “추가로 이 제안된 접근방식은 강화학습 연구자들이 손으로 설계한 알고리즘을 개발하고 개선하는 데 도움을 주는 툴로 사용될 수도 있다. 이 경우 제안된 접근방식은 연구자들이 입력하는 아키텍처에 따른 좋은 업데이트 규칙이 어떤 것인지에 대한 통찰력을 제공할 수 있어 수작업 강화학습 알고리즘 발견을 가속화할 수 있을 것”이라고 덧붙였다. 

 

[관련기사] 美 USC, “슈퍼컴 없이 워크스테이션 한 대로 심층강화학습” 증명

[관련기사] 고전 텍스트 게임으로 간 인공지능...강화학습과 NLP로 병목현상 풀어