美 USC, “슈퍼컴 없이 워크스테이션 한 대로 심층강화학습” 증명 < AI기술 < 기사본문

미국 남캘리포니아대와 인텔의 연구진은 36코어 CPU와 GPU 1개를 탑재한 단일 컴퓨터를 이용해 아타리 비디오게임과 둠에서 AI를 훈련하는 동안 초당 약 14만프레임을 처리하거나 차선책의 2배 수준으로 처리능력을 높일 수 있었다. 사진=샘플팩토리,USC,인텔 랩

고급 워크스테이션 단 한 대만으로 초대형 컴퓨팅 클러스터를 사용한 인공지능(AI) 훈련 효과를 앞질렀다는 논문 보고가 나왔다. AI 훈련과정에 필요한 작업들을 쪼갬으로써 컴퓨팅 자원이 이들 모두를 최고속도로 가동하는 데에만 사용되도록 할 수 있었다는 게 연구진의 설명이다.

IEEE스펙트럼은 17일(현지시간) 빈약한 컴퓨팅자원을 갖춘 대학 등도 대형 인공지능(AI) 기술연구를 따라잡을 수 있게 도와줄 새로운 AI(심층강화학습) 훈련 접근방법이 나왔다며 이를 소개했다.

주인공은 미국 남부캘리포니아대(USC)와 인텔랩 연구 팀이다.

보도에 따르면 이들은 대학의 학술연구실에서 흔히 사용하는 하드웨어만 사용해서 심층 강화 학습(deep Reinforcement Learning) 알고리즘을 훈련하는 방법을 개발했다.

이들은 지난 14일부터 16일까지 사흘간 열린 머신러닝국제컨퍼런스2020(ICML2020) 제출 논문을 통해 어떻게 단 한 대의 고급 사양 워크스테이션만을 사용해 첨단 성능을 가진 AI를 1인칭 슈팅 비디오게임(FPS)인 ‘둠’에서 훈련시켰는지 기술했다.

심층강화학습에 대한 이 선도적 접근방식은 AI 에이전트를 특정 목표 달성시 보상하는 시뮬레이션 환경에 배치하고, AI 에이전트는 이를 피드백으로 사용해 최상의 전략을 수립하는 방식이다. 여기에는 3가지 주요 컴퓨팅 작업, 즉 환경 및 에이전트 시뮬레이션, 정책이라 불리는 학습된 규칙에 기반한 다음에 수행할 작업 결정, 그리고 정책을 업데이트하기 위해 이러한 액션의 결과를 사용하는 작업이 포함된다.

연구진은 “‘샘플 팩토리(Sample Factory)’로 불리는 새로운 접근방식을 통해 훈련과정에 필요한 작업들을 쪼갬으로써 컴퓨팅 자원이 모든 작업(AI가 최상의 전략을 수립하는 데 필요한 작업)을 최고속도로 가동하는 데에만 사용되도록 할 수 있었다”고 비결을 설명했다.

논문에서 이들은 36코어 CPU와 GPU 1개를 탑재한 한대의 컴퓨터로 아타리 비디오게임과 둠에서 AI를 훈련하는 동안 초당 약 14만프레임을 처리하거나 차선책의 2배 수준으로 처리능력을 높일 수 있었다고 밝혔다. 이들은 또한 일반적인 컴퓨팅 성능의 극히 일부만을 사용해 딥마인드(DeepMind)가 만든 30가지 다양한 3D 과제를 해결했다고도 썼다.

◆컴퓨팅 자원으로 AI연구 어려움 겪던 대학들 희망이 비친다

최첨단 AI시스템을 양성하는 데 필요한 막대한 컴퓨팅 자원은 부유한 IT기업들이 학술계의 연구팀을 황폐화시키고 있다는 것을 의미한다. 그러나 새로운 접근 방식은 과학자들이 최첨단 AI 문제를 단일 컴퓨터에서 해결할 수 있게 해 주면서 규모의 균형을 맞추는 데 도움이 될 수 있을 것으로 기대를 모은다.

오픈AI의 2018년 보고서는 가장 강력한 AI를 양성하는 데 사용되는 컴퓨팅 처리능력이 3.4개월마다 두 배씩에 이르는 믿을 수 없이 빠른 속도로 증가한다는 사실을 발견했다. 데이터를 많이 필요로 하는 접근방식 중 하나가 심층 강화 학습인데, 이는 심층학습(딥러닝)과 강화학습을 함께 사용하는 방식이다. 이 방식은 AI가 수백만 번의 시뮬레이션(모의 실험)을 통해 학습을 반복함으로써 시행착오를 통해 학습한다.

최근 스타크래프트와 도타2와 같은 비디오게임에서의 인상적인 발전은 수백 개의 CPU와 GPU로 꽉 들어찬 서버에 의존해 왔다.

물론 세레브라스 시스템의 웨이퍼 스케일 엔진(Wafer Scale Engine) 같은 전문 하드웨어는 이러한 프로세서로 구성된 랙을 AI 훈련에 완벽히 최적화시킨 대형 단일 칩으로 대체할 것을 약속한다. 그러나 수백만 달러(수십억 원)에 이르는 가격 때문에 자금력이 부족한 연구자들에게는 그다지 도움이 되지 않는다.

심층강화학습 전문가인 피터 스톤 텍사스오스틴 대 교수는 “일반 하드웨어 상에서 심층강화학습을 하는 방식을 고안하는 것은 환상적 연구 목표”라고 말했다. 그는 “심층강화학습 연구수행은 일반적으로 소규모 연구그룹을 뒤처지게 만드는 것뿐만 아니라 이에 필요한 컴퓨팅 자원은 일반적으로 상당한 탄소 발자국을 남긴다(많은 에너지가 소모되는 컴퓨팅 자원을 사용한다)”고 덧붙였다. 그는 “연구에 필요한 에너지를 줄이고 강화학습을 민주화하는 방향으로 나아가는 것은 올바른 방향으로 나아가는 과정”이라고 말했다.

◆필요는 발명의 어머니

발표된 논문 수석 저자인 알렉세이 페트렌코 USC 대학원생은 이 프로젝트의 영감은 필요성에서 나왔다며 이는 ‘필요는 발명의 어머니’의 전형적 사례라고 말했다. 페트렌코는 인텔에서 여름 인턴십을 마치자 회사의 슈퍼컴퓨팅 클러스터에 접근할 수 없게 됐고 자신의 미완성 심층강화학습 프로젝트도 위험에 빠졌다. 그래서 그와 동료들은 더 간단한 시스템에서 작업을 계속할 방법을 찾기로 결정했고 결국 성과를 도출했다.

페트렌코는 “내 경험 상 많은 연구자들이 화려한 최첨단 하드웨어(슈퍼컴)에 접근할 수 없다”며 “하드웨어 활용률을 극대화한다는 관점에서 다시 생각해 봄으로써 단일 워크스테이션에서도 일반적으로 큰 클러스터로부터 빠져나올 수 있는 성능에 접근할 수 있다는 것을 알게 됐다”고 말했다.

페트렌코는 “AI 훈련은 항상 가장 느린 과정에 의해 제한되지만, 이 세 가지 일은 흔히 표준 심층 강화학습 접근방식에 얽혀 있어 개별적으로 최적화하기 힘들다”고 는 말한다. (그는 앞서 세가지 작업을 환경 및 에이전트 시뮬레이션, 정책이라 불리는 학습된 규칙에 기반한 다음에 수행할 작업 결정, 그리고 정책을 업데이트하기 위해 이러한 액션의 결과를 사용하는 작업이라고 언급했다.)

페트렌코는 “프로세스 간 데이터 연결(piping)은 여러 기계에 걸쳐 분산될 수 있기 때문에 또 다른 주요 병목이 된다”고 말한다. 그의 연구팀은 모든 프로세스에 즉각 접근할 수 있도록 공유 메모리에 모든 데이터를 채워넣어 단일 컴퓨터에서 작업해 성과를 도출할 수 있었다.

◆독자 개발한 심플팩토리 적용, 컴퓨터 클러스터서 훈련받은 AI 앞질러

이는 선도적인 심층강화학습 접근법에 비해 업청난 속도 상승을 가져왔다. 36코어 CPU와 1개의 GPU가 장착된 단일 기계를 사용하여 연구진은 아타리 비디오게임과 둠에서 훈련하는 동안 초당 약 14만프레임을 처리하거나 차선책에 비해 두 배수준의 성능을 가져왔다. 딥마인드랩의 3D 훈련 환경에서 초당 4만 프레임이라는 기록을 세웠는데, 이는 2위보다 약 15% 향상된 것이다.

연구팀은 지난 3월 프레임률이 훈련 시간에 어떻게 적용하는지 확인하기 위해 샘플팩토리를 심층 강화학습 효율을 획기적으로 증가시키기 위해 만들어진 구글 브레인 오픈소싱 알고리즘에 적용했다. 샘플팩토리는 다른 알고리즘의 4분의 1 정도의 시간 만에 둠에서 두 가지의 간단한 훈련을 마쳤다.

이 팀은 또한 보다 강력한 36코어 CPU와 GPU 4개를 탑재한 컴퓨터를 사용해 자신들의 접근방식을 딥마인드 연구실에서 제시한 30개 도전 과제에 적용해 테스트했다.

그 훈련을 받은 AI는 딥마인드가 거대 컴퓨터 클러스터 상에서 훈련받은 오리지널 AI의 성능을 크게 앞질렀다.

페트렌코는 “이런 효율적 훈련 접근법은 소규모 연구팀들에게 매우 중요하다”며 “첨단기기로 구현한 것에 비해 4배 가량 늘어난 것은 엄청나다”고 말했다. 이어 “이는 동시에 네 배의 실험을 할 수 있다는 것을 의미한다”고 설명했다.

논문에서 드러난 컴퓨터는 여전히 AI 연구를 위해 고안된 고급기종 워크스테이션이지만 페트렌코는 그와 그의 동료들이 훨씬 더 간단한 컴퓨터에도 샘플 팩토리를 사용하고 있다고 밝혔다. 그는 심지어 중급 게임용 노트북에 대한 몇 가지 진보된 심층 강화학습 실험을 할 수 있었다고 말한다. 그는 “이는 과거에는 들어 본적이 없는 일”이라고 말했다.