'실패는 성공의 어머니'
다양한 방법을 직접 시도하고 부딪히며 데이터를 축적하는 '성장형' AI
게임ㆍ로봇ㆍ자율주행ㆍ주식거래ㆍ국방 등 다양한 분야에 활용

강화학습은 '과정'의 습득. 다시 말해, 인간의 개입 없이 AI가 반복 학습을 통해 스스로 목적을 달성하는 과정을 습득하는 기술이다. 시행착오 경험으로 데이터를 축적한 후 데이터 속 패턴을 학습해 지능화하는 ML 기법이다.

처음 자전거를 배울 때, 여러 번 넘어지는 시행착오를 반복하기 마련이다. 그렇게 넘어지다 보면, 어느덧 자전거를 잘 탈 수 있게 된다.
이처럼 직면한 문제에 스스로 도전하고 부딪히며 데이터가 축적된다. 이때 축적된 데이터의 패턴을 학습하는 ML(기계학습) 기법이 바로 강화학습.

강화학습의 지능 에이전트(Agent)가 상태(State)를 인식ㆍ관측한 뒤, 이때 얻은 정보에 따라 에이전트가 액션(Action)을 취하는 방식이다.
에이전트의 액션으로 환경이 변화하면 환경은 새로운 상태(State)와 변화에 대한 보상(Reward)을 에이전트로 전달한다. 이때, 보상은 조건에 따라 이뤄지지 않을 수도 있다. 환경의 피드백에 따라 에이전트는 최적화된 전략(Policy)을 학습해 이에 맞춰 액션(Action)을 취하고 같은 과정이 반복된다.
이렇게 수집되는 환경 상태, 액션, 보상 경험을 통해 에이전트가 누적 보상을 최대화할 수 있는 상태와 전략을 수립하면 강화학습 모델이 형성된다.

환경과 상호작용해 학습하는 강화학습 개념 이해(사진=인공지능 기술청사진 2030)
환경과 상호작용해 학습하는 강화학습 개념 이해(사진=인공지능 기술청사진 2030)


◆기술동향

1) 심화 강화학습(DRL, Deep Reinforcement Learning)

심화 강화학습은 DL(딥러닝)과 강화학습을 결합한 기술이다.
DL의 심층 신경망을 통해 대량의 데이터를 통한 함수 근사(Function Approximation) 학습이 가능해지면서, 최적 행동 양식을 도출하는 강화학습의 기술 장점이 복잡한 문제에 적용 가능해진 것이다. 2013년 딥마인드가 심층 신경망(Deep Neural Network) 구조와 Q-Learning 기반 강화학습 알고리즘을 결합한 DQN(Deep Q-Network)을 발표하면서 급속히 발전하기 시작했다.

2) 게임 AI

전 바둑을 6살 때부터 뒀거든요.

그런데 컴퓨터가 넘어버렸다면 사실 허탈하지 않습니까.

-이세돌 9단 인터뷰(2016. 03, JTBC)

구글은 심화 강화학습 적용을 확대하고자 게임을 강화학습 수준 평가의 테스트베드로 사용했다. 심화 강화학습을 게임에 적용하면서 게임의 복잡도를 크게 높였다.
2013년 게임 Atari에 처음 적용했으며 2016년 알파고로 바둑 분야에 적용하면서 본격 화제를 모았다. 이후 2017년 바둑 분야 알파제로, 2019년엔 온라인 게임 스타크래프트2에 심화 강화학습을 적용했다.

3) 멀티에이전트 강화학습(Multi-Agent RL)

주어진 환경에서 둘 이상 에이전트가 협업 또는 경쟁해 보상을 극대화하는 강화학습 기법이다.
멀티에이전트 강화학습 연구에서는 여러 에이전트가 제한적으로 소통하는데, 이때 기존 강화학습이 갖는 부분 관측(Partial Observation)이 더욱 중요해진다. 에이전트 간 관계나 신뢰할당과 같은 추가적 고려사항이 있는 만큼 학습 과정이 복잡해지기도 한다.

4) 모델 기반 강화학습(Model-based RL)

환경과의 상호작용으로 얻은 경험 샘플 데이터로 상태와 보상을 추론하는 모델을 생성한 후, 이 모델을 통해 환경과의 상호작업 없이 빠르게 전략을 학습하는 기법이다.
모델 기반 강화학습은 모델 프리(Model-free) 강화학습과 차별화된다. 모델 프리는 환경과의 상호작용을 통해 정책을 직접적으로 학습한다. 모델 프리처럼 학습 과정에서 상태 전이(Transition Function)의 확률적 불확실성이 큰 경우, 동적 환경과 상호작용을 통한 많은 샘플 데이터가 필요해 학습이 어려워진다. 이때, 모델 기반 강화학습을 통해 이러한 한계를 극복할 수 있다.

모델 기반 강화학습을 통한 샘플 효율적 Atari 게임 AI 개발 (사진=인공지능 기술청사진 2030)
모델 기반 강화학습을 통한 샘플 효율적 Atari 게임 AI 개발 (사진=인공지능 기술청사진 2030)


5) 모사학습(Imitation RL)

보상의 희소성 문제를 해결하는 기술.
강화학습이 실제 적용되면 적절한 보상 함수 설계가 어렵거나, 명시적인 보상이 희소해 학습 기회가 종종 낮아지곤 한다. 이러한 보상 희소성 문제를 해결하기 위해 전문가를 모방하고 보상 함수를 유추해 강화학습을 수행하는 것이 역강화학습, 모방적 강화학습 기법이다.


◆시장동향

2019년 가트너 하이프사이클에 따르면 강화학습은 혁신 트리거(Innovation trigger) 초기 단계이며, 자율주행ㆍ로봇 등 제어 시스템 분야에서 성장 가능성이 큰 것으로 평가됐다.
특히 최적 행동 판단이 중요한 ▲자율주행ㆍ드론ㆍ로봇ㆍ스마트팩토리 등 가상물리 시스템 ▲추천ㆍ주식거래ㆍ자연어 대화 등 고도화된 순차적 의사결정 서비스 ▲5G 엣지 시스템ㆍ데이터 센터 등 대규모 시스템 오퍼레이션에 유용히 쓰일 전망이다.

구글은 강화학습을 지도학습 한계를 극복하는 범용 솔루션으로서 다양한 영역에 접목하고 있다. 딥마인드(구글 강화학습 연구 담당)은 현재 10억 달러 이상의 대규모 투자를 수행 중인 것으로 알려졌다.

최근 가장 주목받은 성과는 '알파포드'. 알파포드는 단백질 분석ㆍ예측에 대해 자기 학습해, 바이오·신소재 사업에서의 강화학습 활용 가능성을 높였다. 알파고에 이어 알파제로에서는 자체 대국을 통해 바둑, 체스, 쇼기 등을 짧은 시간 내 마스터해 강화학습 확장성을 확보했다.

자율주행과 로봇 분야에서도 가상물리 시스템과 순차적 의사결정 서비스 핵심요소로 다수 빅테크 기업들이 강화학습 기술을 적용하고 있다.
자율주행 기술에 대해서는 PBT가 적용됐다. PBT(Population based Training)는 딥마인드와 웨이모가 협력해 개발한 강화학습 기법이다.
엔비디아는 심층 강화학습 기반 End-to-end 자율주행 모델을 구축 중이며, 아마존은 DeepRacer 1/18비율 모형 자동차와 ML 시뮬레이터에 강화학습을 적용하고 있다. 테슬라는 모방학습 기반 신경망 활용 자율주행을, 페이스북은 참고 지도 없이 낯선 환경에서도 자율주행이 가능한 모델을 개발 중.

또한 딥마인드 범용 AI 알고리즘을 통해 데이터센터 냉각 비용을 40% 이상 절감한 사례도 있다. 4족 보행 로봇 AI와 AI 반도체 설계에도 강화학습을 사용하고 있다.

AWS 딥레이서 에보(사진=AWS)
AWS 딥레이서 에보(사진=AWS)

OpenAI 연구소는 강화학습 알고리즘 라이브러리 OpenAI Baseline, 개발도구 OpenAI Gym 등을 공개하면서 강화학습 연구를 뒷받침하고 있다. OpenAI는 게임 도타2(Dota2)에 OpenAI Five를 적용해 99% 이상의 높은 승률을 기록한 바 있다.

중국 기업 텐센트의 '절예'는 알파고 은퇴 후 바둑 AI 중 최고 성능을 갖춘 것으로 평가된다. 절예는 2010년부터 개발됐으나 2016년 알파고 성과에 영향을 받아 알파제로 신경망을 도입하며 성능이 크게 향상됐다.

국내 역시 네이버랩스, ETRI, 카이스트 등에서 강화학습 프로젝트는 활발히 이뤄지고 있다. 특히 중앙대에서 강화학습을 이용한 국방 경계 감시 기술을 개발했다. 연구는 17년부터 진행됐으며, 과정에서 지능형 임베디드 영상분석 시스템이 개발됐다. 상호 협업 기반 기술에 해당한다.

 

◆발전 전망

강화학습의 궁극적 목표는 ▲목적 지향 시각지능 생성ㆍ추론 기술 개발 ▲복잡한 실제 환경에서 다중 문제 해결을 위한 강건한 범용 강화학습 기술 개발이다.

이를 위하여, 단기(2020~2022년)에는 데이터 효율적 모델에 기반한 고신뢰성ㆍ연합 강화학습 연구를 목표로 한다. 이를 위해 모델 편향 회피, 알고리즘 고도화, 계층적 강화학습 및 온라인 학습 수행이 진행되는 중이다.

중기(2023~2026년) 목표는 설명 가능한(XAI) 강화학습, 메타 강화학습 수행이다. 또한 학습과 실제 적용 환경의 차이를 고려한 테스트와 지속적 모델 향상 기법이 연구될 예정.

장기(2027~2030년) 목표는 '강건한 범용 강화학습(다양한 분야에서 복잡한 문제 해결)', 상식기반 강화학습, 고도화된 대규모 강화학습 모델의 구현이다.

강화학습의 핵심은 ▲실시간 고신뢰성 강화학습 ▲데이터 효율적 강화학습인데, 각각 기술 완성도가 60%ㆍ50%로 타 AI 기술에 비해 높은 편. 따라서, 빠른 발전 가능성이 높아 국내외 연구팀의 귀추가 주목된다.

'실패는 성공의 어머니', '칠전팔기' 같은 옛말이 와닿는다. 한 문제에 대해 다양한 방법으로 시도하는 것, 이때 얻은 실패를 기반으로 발전하는 것. 인간이 AI에게 배워야 할 자세이다.

"인공지능과 자연지능 연계 집중할 때" AI 기술청사진 연구 총괄 IITP 박상욱 팀장

[특별기획] 인공지능 기술 청사진 2030 연재순서 표

AI타임스 박성은ㆍ최명현 기자 sage@aitimes.com

키워드 관련기사
  • "하나를 알려주면 열을 안다" [특별기획 AI 2030] ② 메타학습
  • "인간처럼 생각하는 AI" [특별기획 AI 2030] ④ 지식ㆍ상식 기반 추론
  • "인공지능과 자연지능 연계 집중할 때" AI 기술청사진 연구 총괄 IITP 박상욱 팀장