최근 하버드대와 구글리서치 연구진이 UAV 항법용 강화학습(Reinforcement Learning, RL) 알고리즘을 훈련할 수 있는 공개 소스 시뮬레이터 ‘에어 러닝’(Air Learning)을 개발했다고 지난달 16일 기술 매체 테크엑스 플로어가 보도했다.
연구진에 따르면, 에어 러닝에서, UAV 요원들은 심층 큐 네트워크(DQN) 및 근위부 정책 최적화(PPO) 알고리즘이라는 두 가지 교육 기술을 사용해 지점 간 장애물 방지 작업에 대해 AI를 교육할 수 있다.
그런가 하면, 올해 7월 28일 영국의 AI 개발회사 딥마인드(DeepMind) 연구진이 머신러닝의 강화학습이 머지않은 미래에 인간의 인지 능력을 복제하고, 범용인공지능(AGI) 수준으로 발전할 것이라고 주장했다.
이들은 “보상이면 충분하다(Reward is Enough)”는 제목의 논문에서 “강화학습이 AGI를 달성하는 시점에 거의 모든 인지 작업에서 인간을 능가하는 AI가 탄생할 것”이라고 예측했다.
국내에선 지난 6월 9일 정송 KAIST AI대학원장이 ‘지능정보기술포럼’에서 강화학습을 차세대 AI 기술로 꼽았다.
정 원장은 “현재 대규모 AI 언어모델이 대세다. 미래 사회 의사결정은 강화학습이 담당할 것”이라고 말했다.
강화학습은 AI 알고리즘 스스로 다양한 시도를 통해 최적의 결과치를 낼 수 있는 조합을 찾아가는 훈련방식이다. 강화학습 에이전트는 답을 모른 채, 수십만 번의 시행착오를 통해 최종적으로 완전한 학습에 도달하는데 때론 사람도 전혀 생각하지 못하는 방법으로 문제를 해결해 내기도 한다.
지난 2016년부터 빠르게 발전한 강화학습 분야는 AI가 인간의 영역을 넘어서는 관문으로 여겨지며, 지속해서 진화하고 있다.
우수한 칩 생산, 강화학습 덕분
지난 30일 칼럼니스트 쥬리카 두즈모비치(Jurica Dujmovic)는 마켓워치에 “기업들은 컴퓨터 칩을 만들기 위해 인공지능을 사용하고 있다”라며, "칩 설계에 AI가 도입되는 것은 성능과 효율의 필요성 때문이다”라고 말했다.
두즈모비치에 따르면, 지금까진 칩 설계가 전기공학의 영역이었지만 최근 구글의 연구로 인해 그 영역이 바뀔 수 있다는 것이다. 그는 “AI가 만든 칩 레이아웃은 전력 소비, 성능, 칩 영역 등 모든 핵심 지표에서 인간이 생산한 것보다 우수하거나 비견된다”고 밝혔다.
그 비결이 바로 강화학습이라고 주장했다. 이 머신러닝의 강화학습 덕분에 인공지능(AI)은 인간이 몇 주 동안 작업을 수행했던 것에 비해 불과 6시간 만에 작업을 완료했다는 것이다.
두즈모비치는 또 “인공지능 교육 과정이 느리고, 비용이 많이 들지만, 효율성과 성능 향상 측면에서 성과를 거둔다”고 밝혔다.
북미의 한 통합 장치 제조업체의 사례를 들며, 이 회사는 시놉시스 알고리즘을 사용해 단 몇 주 만에 최대 15% 더 높은 총 전력, 30% 더 나은 누설, 2~5배 더 빠른 융합을 달성할 수 있었다는 것이다.
시뮬레이션은 강화학습 최고의 파트너
AI 기반 솔루션 제공업체 데이지 인텔리전스는 강화학습을 사용해 기업들의 위험 관리를 해주는 미국 기업이다. 지난해 10월 27일에 이 회사는 자사 블로그의 글에서 “강화학습은 인간이 한 번도 해본 적이 없는 일을 할 수 있다”고 소개했다.
이 블로그에 따르면, 강화학습은 시뮬레이션을 통해 학습하거나, 실시간 의사결정 방법을 학습해 원하는 결과를 도출하는 AI의 한 분야라고 설명한다.
또 실제 환경에서의 강화학습이 중요한 이유는 시뮬레이션 상태에서 사용했을 때의 속도보다 학습 속도가 빠르기 때문이라는 설명이다.
즉, 강력한 컴퓨터가 있으면, 1억 시간의 시뮬레이션 시간을 1시간 동안에 실시간으로 할 수 있다. 게다가, 과거의 결정을 배우려고 하지 않기 때문에 인간이 생각해 보거나 시도하지 않았던 결정을 내리는 법을 배울 수 있다.
또한, 실시간 직접 훈련하는 강화학습은 물리 역학이 알려주지 않은 세계와 실시간으로 상호작용하는 것을 배울 수 있다는 것이다.
강화학습은 인간이 결정을 내릴 수 있도록 도와줌으로써 실제의 문제에 적용될 수 있다. AI가 인간에게 권고를 출력하고, 인간은 그 권고를 사업 내에서 어떻게 이행할지를 결정하면서 상호 지원하는 것이다.
이는 AI 기술이 인간의 능력 밖의 결정을 전달하기 때문에 상당한 경쟁 우위를 점할 수 있다. 그 이유는 AI 기술이 복잡하기 때문이거나 AI 시스템이 인간이 평생 할 수 있는 것보다 더 많은 결정을 시뮬레이션을 통해 경험하기 때문이라는 주장이다.
자율주행 자동차의 예를 들어 강화학습을 설명하면, 이 차는 무작위 시행착오를 통해 실시간으로 운전을 배울 수 있다.
이때, 이 자율주행 자동차는 조향 및 가속을 위한 최선의 방법을 무작위로 추측해 알아낼 수 있지만, 운전을 배우기 전에 아마도 수백만 번 충돌할 수 있으며, 이는 모든 사람의 안전에 대한 우려를 낳고, 많은 수의 차량이 필요하게 만든다.
이 학습은 무작위로 이뤄지기 때문에 자동차의 소프트웨어는 이전에 해본 적이 없는 새로운 것을 시도하고, 이미 알고 있는 것을 활용하게된다. 그래서 강화라는 아이디어가 나오게 된다고 설명했다.
자율주행차 소프트웨어는 연습을 통해 학습을 강화하며, 더 나은 결과를 얻기 위해 새로운 상황에서 그것을 떠올리는 것이다.
블로그에 따르면, 자동차는 시스템의 컴퓨터 모델을 사용해 시뮬레이션으로 학습할 수 있다. 따라서 시뮬레이션에는 최적의 결과를 도출하는 의사결정 순서를 학습할 수 있는 컴퓨터 모델이 필요하다.
이때, 시뮬레이션이 제공하는 가장 큰 이점 중 하나는 최적의 성능을 얻기 위해 수백만 대의 자동차를 부수거나 사람을 위험에 빠뜨릴 필요가 없다는 것이다.
강화학습은 예측 분석보다 학습 속도가 빠르므로 더 선호된다고 블로그는 설명했다. 과거 데이터 없이 미래를 시뮬레이션할 수 있으므로 사람이 전에 하지 못했던 것들을 할 수 있다는 주장이다.
즉, 예측 분석과 같은 통계 모델의 경우, 알려진 과거 데이터에서 패턴을 찾기 때문에 학습에 따라 시간이 걸린다. 새로운 패턴을 만들기 위해서는, 시간에 따라 일어나는 새로운 실제 실험이 요구된다.
예측 모형은 이전에 수행한 작업만 반복할 수 있으며, 예제 없이는 새로운 패턴을 학습할 수 없다. 반면에, 강화학습에 의한 시뮬레이션 기술은 인간이 전혀 생각하지 못한 완전히 새로운 대안을 찾을 수 있게 해준다.
시뮬레이션과 결합한 강화학습은 인간의 모든 생애에서 결합한 것보다 더 많은 결정을 내리고, 평가할 수 있다. 이것이 강화학습과 예측 분석 사이의 가장 중요한 차이점이다.
미리 프로그래밍할 필요 없어...로봇 학습에 유용
미국 버클리 인공지능 연구 실험실(BAIR)은 컴퓨터 비전, 머신 러닝, 자연어처리, 로봇연구 등 여러 영역의 전문가들이 포진해있으며, BAIR 블로그를 통해 연구 업적을 홍보하고 있다.
지난해 4월 27일 BAIR 블로그에는 ‘실제 로봇 강화학습의 구성 요소’란 제목의 글이 실렸다.
블로그에 따르면, 로봇은 조립 라인에서 흔히 볼 수 있듯이, 세심하게 제어할 수 있는 환경에서 유용하게 사용돼왔다. 그러나 가정에서는 다양한 환경에 적응할 수 있는 로봇 시스템이 필요하다.
따라서 강화학습이 요구되는데 이 학습 기반 알고리즘은 로봇이 환경에서 수집된 데이터를 활용, 구조화되지 않은 환경에 적응하면서 복잡한 동작을 습득하는 잠재력을 가지고 있다.
강화학습은 로봇이 시행착오를 통해 올바른 행동을 배우는 프로그램이다. 따라서 작업자가 정확한 동작을 미리 프로그래밍해야 하는 부담을 덜 수 있으며, 환경을 알 수 없는 시나리오에 로봇을 배치하기 때문에 특히 중요하다는 것이다.
블로그는 실제 세계에서 강화학습을 해야 하는 이유에 대해 사람의 개입 없이 직접 강화학습하는 로봇은 점점 더 많은 자료를 수집하기 때문에 계속해서 일을 더 잘 할 수 있기때문이라는 주장이다.
아울러, 시뮬레이션은 로봇의 강화학습에도 활용되는데 먼저 로봇과 로봇 환경의 시뮬레이션을 만든 후, 로봇이 시뮬레이션에서 원하는 행동을 학습한다. 최종적으로 학습된 행동이 현실 세계로 전달되는 과정을 거친다.
그러나 이러한 접근법은 몇 가지 근본적인 단점이 있다고 블로그는 지적했다. 시뮬레이션이 실제와 정확히 일치하지 않을 수 있기 때문이다.
즉, 시뮬레이션 성능의 개선이 실제 환경의 개선으로 이어지지 않을 수 있는데 새로운 시뮬레이션 환경을 만드는 경우, 콘텐츠 제작 비용이 엄청나게 많이 들 수 있는 사실이 단점으로 지적되고 있다.
반면에 실제 환경에서 직접 로봇의 강화학습을 시키면, 이러한 문제가 없어지지만, 로봇의 이런 강화학습 훈련은 일부 제약으로 인해 어려운 것으로 판명됐다고 블로그는 설명했다.
AI타임스 조행만 객원 기자 chohang5@kakao.com
