발표 중인 정송 KAIST AI대학원장(사진=지능정보산업협회)
발표 중인 정송 KAIST AI대학원장(사진=지능정보산업협회)

미래 사회 의사결정은 강화학습이 담당할 것입니다.

초거대 언어모델에 이어 인공지능(AI)계를 이끌 차세대 주인공으로 강화학습이 지목됐다. 딥마인드 알파고로 유명한 강화학습이 학계를 넘어 우리 일상으로 들어온다는 것.

특히 자율주행 상용화를 위해서는 강화학습 도입이 필수적이라는 주장이다. 이미 많은 사람들이 익숙하게 사용 중인 AI 추천서비스에도 유용하게 쓰일 전망이다.

[관련기사]"알파고도 칠전팔기?" [특별기획 AI 2030] ③ 강화학습

정송 KAIST AI대학원장은 9일 지능정보산업협회가 개최한 ‘지능정보기술포럼’에서 강화학습을 차세대 AI 기술로 꼽았다.

정 원장은 “현재 대규모 AI 언어모델이 대세다. 미래 사회 의사결정은 강화학습이 담당할 것”이라고 말했다.

글로벌 AI 학계에서는 이미 강화학습이 주류로 떠올랐다. 2018년 ICML 채택 논문을 주제별로 살펴본 결과 강화학습이 두 번째로 많았다. 곧 학계를 넘어 산업계에서도 강화학습을 적극 도입할 것이라는 것이 정송 원장의 전망이다.

정송 원장이 제시한 ICML 2018 논문 주제 순위. 강화학습이 2위다.(사진=박성은 기자)
정송 원장이 제시한 ICML 2018 논문 주제 순위. 강화학습이 2위다.(사진=박성은 기자)


◆자율주행부터 AI 맞춤 쇼핑·음악·교육 콘텐츠까지

강화학습 적용이 필요한 대표적인 분야로 정송 원장은 자율주행과 AI 추천시스템을 꼽았다. 기존 딥러닝으로는 실제 환경 속 수많은 변수들을 고려하는 데 한계를 보인다는 설명이다.

정 원장은 “물류로봇과 로보택시는 강화학습을 적용할 수 있는 대표적인 대상이다. 물류로봇이 공장 내에서 효율적으로 이동하기 위해서는 고려해야 할 요소가 생각하는 것보다 훨씬 많다”고 말했다.

이어 “로보택시의 경우에도 수천대 차량 속에서 손님을 맞아야 한다. 이는 기존 최적화 방식으로 계산하기에 무리가 있다”고 강조했다.

우리 일상에 이미 친숙하게 자리 잡은 추천시스템도 강화학습을 통해 대폭 개선 가능하다. 쇼핑사이트 내 추천 상품부터 음원 스트리밍사의 맞춤형 플레이리스트, AI 맞춤형 교육 콘텐츠까지 모두 해당된다.

정송 원장은 “사용자가 행동 하나 하나를 취할 때마다 추천시스템 엔진은 수천만 정보 중에 어느 것을 어떤 페이지에 디스플레이해야하나 계산한다. 절대 간단한 문제가 아닌 만큼 강화학습이 유용할 수 있다”고 말했다.

이외 동영상 스트리밍 시 최적의 네트워크 설정, 데이터센터 쿨링에도 적용 가능하다. 구글은 2016년 딥마인드 AI를 사용해 데이터센터 전기요금을 40% 절감한 바 있다.
 

◆방대한 강화학습 데이터, 전략적으로 학습해야

연구영역에 머물러 있는 기술이 산업계로 넘어오기 위해 넘어야 할 산도 많다. 좀 더 효율적인 작업을 위해 전략적으로 데이터를 선택하고 간소화, 추상화해야 한다.

기존에 학습한 것을 활용하는 것과 새로운 영역 탐험 두 가지 균형을 맞춰야 한다. 그래야 소위 ‘고집 센 사람’처럼 아는 것만 계속 학습하는 일을 막을 수 있다.

강화학습 데이터에 대해 정송 원장은 “알파고를 예로 들자면 현재 바둑판 상황, 바둑수를 두는 행동, 행동 후 바둑판 흐름의 긍정적 혹은 부정적 결과(보상), 다음 바둑판 변화 총 4가지 데이터를 계속해서 사용해야 한다”고 설명했다.

발표 중인 정송 KAIST AI대학원장(사진=박성은 기자)
발표 중인 정송 KAIST AI대학원장(사진=박성은 기자)

자율주행차가 달리는 도로에서는 바둑판보다 훨씬 많은 데이터가 쏟아진다. 여기서는 특정 대상만 편향적으로 학습하지 않게 전략적 경험 방식을 활용해야 한다.

음성, 이미지, 영상 등 다양한 데이터를 보유한 멀티모달(Multi-Modal)한 환경을 제대로 표현(Representation)하는 것 또한 관건이다.

정송 원장은 “강화학습이 액션을 취했을 때 환경이 제대로 피드백을 주지 않는 경우가 있다. 이를 보완하기 위한 방법으로 역강화학습이 있다. 제일 잘하는 사람의 학습하는 행동을 그대로 따라하는 것”이라고 말했다.

매번 실제 환경에서 실험할 수 없는 만큼 가상 인프라를 현실과 근접하게 조성하는 것도 중요하다.

정 원장은 “시뮬레이션 환경을 잘 구현해 가상경험으로 실제경험을 대체할 수 있어야 한다. 이를 위해 데이터 증강 기술을 활용할 수 있다. GAN과 같은 생성기술로 위조데이터를 만들어서 경험을 압축하기도 한다”고 전했다.

 

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]알파고를 넘어 새로운 강화학습 세계를 연다...딥마인드 오준혁 박사

[관련기사]내년 모집 정원 2배 늘린다, 세계 AI연구 주도하는 KAIST AI대학원

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지