에이전트가 대규모로 실행되게 해···강화학습 알고리즘 개발 단순화

훈련 데이터량 늘리는 방식 대신 더 큰 병렬화 기능 에이전트 사용

에이전트 경험축적 신속하게···환경 인스턴스와의 상호작용 채택해

딥마인드가 더 강력한 성과를 보여줄 강화학습 알고리즘 개발을 위한 분산 프레임워크인 애크미(Acme)를 출시했다.
딥마인드가 더 강력한 성과를 보여줄 강화학습 알고리즘 개발을 위한 분산 프레임워크인 애크미(Acme)를 출시했다.

딥마인드가 더 강력한 강화학습 성과를 보여줄 알고리즘 개발을 위한 분산 프레임워크인 애크미(Acme)를 출시했다고 벤처비트가 3일(현지시간) 전했다.

딥마인드 발표에 따르면 애크미는 특정 환경 하의 인공지능(AI) 강화학습 시스템인 에이전트가 다양한 규모로 실행될 수 있도록 함으로써 강화 학습 알고리즘 개발을 단순화해 주는 프레임워크다.

이 작업 관련 기술 논문을 공동 집필한 엔지니어와 연구원들에 따르면, 애크미는 이전 접근법보다 더 큰 병렬화 기능을 가진 에이전트를 만드는 데 사용될 수 있다.

강화학습에서는 환경과 상호작용해 자체 훈련 데이터를 생성하는 에이전트가 포함된다. 에이전트는 현재 상태를 인식해 선택 가능한 행동들 중 보상을 최대화하는 행동, 또는 그런 행동 순서를 학습하게 된다. 이 방식은 비디오게임과 로봇공학에서 자율주행 로봇택시에 이르기까지 각 분야에서 돌파구를 이끌어 냈다. 

최근 이 분야에서의 발전은 부분적으로는 사용되는 훈련 데이터량의 증가에 따른 것이며, 이는 에이전트가 신속하게 경험을 축적하기 위해 환경의 인스턴스들과 상호작용하는 시스템을 설계하게 만드는 동기를 부여했다. 

딥마인드는 이 단일 프로세스 프로토타입 알고리즘에서 분산형 시스템을 확장하기 위해서는 종종 해당 에이전트의 재구성이 요구되며, 여기에 애크미 프레임워크가 필요하게 된다고 설명했다. 
 
애크미는 강화 학습 에이전트를 훈련하기 위한 개발 제품군(스위트)이다. 이는 알고리즘과 에이전트 정책에 이르기까지 다양한 수준의 추상화 단계에서부터 에이전트를 구성할 수 있는 구성요소를 갖추고 복잡성과 규모의 문제 양면을 모두 해결하는 시도를 하게 된다.

에이전트는 시간 경과에 따라 가장 큰 보상을 얻기 위해 ‘정책’이라고 불리는 최상의 전략을 스스로 학습한다. 정책은 주어진 상황에서 에이전트가 어떤 행동을 해야 할지 정의한다.

이는 만들어지고 있는 아이디어를 주로 반복되는 훈련, 강박적 로그인, 체크포인팅을 통해 계속해서 신속적으로 내놓고 평가할 수 있게 해 줄 것으로 생각되고 있다.

애크미 내에서 액터(actor)들은 환경과 밀접하게 상호작용하면서 환경에 의해 생성된 관찰을 하고, 그에 따라 환경에 피드백하는 행동(acting)을 한다. 이어지는 추이 관찰이 끝나면 액터들에게는 자신들의 상태를 업데이트할 기회가 주어진다.

이는 환경에 대응해 어떤 조치를 취할지 결정하는 그들의 행동 선택 정책과 가장 자주 연관된다.

애크미 액터의 특수형 유형은 액팅 및 학습 구성 요소(‘에이전트’로 불림)로 구성되며, 이들의 상태 업데이트는 학습자 구성 요소 내의 몇 가지 단계에 의해 유발된다. 즉, 에이전트는 대부분 의 자신의 액션 선택을 자신의 행동 구성요소 자신의 행동 구성요소(acting component)에 따라 결정한다.

애크미는 액터와 학습자 구성 요소들 사이에 자리 잡은 데이터 세트 모듈을 제공한다. 이 모듈은 딥마인드가 애크미와 함께 출시한 ‘리버브(Reverb)’로 불리는 낮은 수준의 스토리지 시스템의 지원을 받는다.

또한 애크미는 리버브에 끼워넣을 수 있는 공통 인터페이스를 설정, 다른 스타일의 사전 처리 및 진행 중인 관찰 데이터 집계를 가능케 한다.

액팅, 학습 및 스토리지 구성요소는 애크미 안에서도 서로 다른 쓰레드, 또는 프로세스 사이에서 분할되는데 이는 두가지 이점을 제공한다. 하나는 환경과의 상호작용이 학습 프로세스와 비동기적으로 발생하는 것이며, 다른 하나는 데이터 생성 속도가 빨라지는 것이다.

다른 곳에서, 애크미의 비율 제한(rate limitation)은 학습에서 액팅에 이르기까지 원하는 비율의 시행을 허용하며, 프로세스가 정의된 허용 범위 내에서 유지되는 한 차단되지 않은 상태로 실행된다.

예를 들어 프로세스 중 하나가 네트워크 문제나 불충분한 리소스로 인해 다른 프로세스보다 뒤처지기 시작하면, 레이트 제한 장치는 다른 프로세스들이 따라 올 때까지 지연된 프로세스를 차단한다.

애크미는 이러한 툴과 리소스 외에도 강력한 연구 기준은 물론 각각의 강화 학습 알고리즘의 레퍼런스 구현을 위해 사용되는 일련의 예제 에이전트를 함께 제공한다. 

딥마인드는 향후 더 많은 것을 이용할 수 있을 것이라고 말한다. 연구자들은 “이러한 것들을 제공함으로써 우리는 애크미가 (강화학습)에서 재현성 상태를 개선하고, 새로운 에이전트를 만들 수 있는 단순한 구성 블록을 제공함으로써 학술 연구 커뮤니티에 힘을 실어주기를 희망한다”고 말했다. 또 “우리의 기준선은 현장의 진척도를 측정하기 위해 추가 기준을 제공하게 될 것”이라고 덧붙였다.

키워드 관련기사
  • 스탠포드, 역동적 환경에 맞는 AI 강화학습 발굴