마이크로소프트(MS)가 7일(현지시간) 공식 블로그를 통해 강화학습 모델 기반 MS퍼스널라이저 시스템에 대해 자세히 소개했다. 퍼스널라이저 시스템은 강화학습을 기반으로 구축된 최초의 애저 코그니티브 서비스 일부분으로써 사용자가 실시간으로 외부 환경과 상호작용하고 학습할 수 있다. 보다 첨단적인 학습모델을 도입해 머신러닝에 접근이 가능하다.
MS퍼스널라이저를 사용하는 기업고객들은 수많은 고객의 니즈를 파악하는 데 이만한 시스템이 없다고 입을 모은다. 기존에는 축적된 과거 데이터에 기반해 고객의 선호도를 예측해 상품을 추천했다면 코로나 팬데믹 이후에는 보다 실시간으로 정확히 예측하는 시스템이 필요해졌다. 강화학습은 이같은 요구에 가장 잘 부응할 수 있는 모델이다. 즉각적인 피드백에서 학습하기 때문에 변화하거나 예측할 수 없는 상황에 빠르게 적응할 수 있기 때문이다.
퍼스널라이저는 원하는 사업이나 경험 결과를 추진하기 위해 웹사이트를 보는 사람에게 무엇을 보여줄 것인지 또는 챗봇이 어떤 질문을 해야 하는지를 자동 선택한다. 그것은 사람이 더 건강한 식습관에 전념하게 하거나 새로운 게임 경험을 하게 하는 것일 수도 있다. 에이전트는 시행착오를 통해 어떤 콘텐츠가 다른 종류의 사용자에게 가장 도움이 되거나 설득력 있는지를 알게 된다.
한 예로 세계적인 맥주기업 앤호이저 부시 인베브(AB인베브)는 최근 MS퍼스널라이저를 마케팅에 도입했다. 소규모 식료품점에 더 나은 서비스와 온라인 시장에서 맞춤형 추천을 제공하기 위해서다. 또 MS는 글로벌 금융서비스 및 기술기업 수베르(Sber) 내 엔지니어·과학자와 협업해 로봇기술에 강화학습을 활용했다. 수베르는 러시아를 비롯 동유럽에서 가장 큰 수베르 은행의 모기업이다.
MS 강화학습 훈련법을 익힌 수베르 코인로봇이 움직이는 모습. (영상=MS 공식 AI 블로그).
MS강화학습으로 훈련한 수베르 로봇은 이동식 카트에서 수천 개 동전이 들어있는 백을 꺼내 동전을 센 후 다시 포장한다. MS와 수베르 공동 연구진은 최근 발표한 논문에서 일반 고체 물체를 잡는 것보다 상황에 따라 다른 무게 때문에 변화무쌍한 동전백을 짚는 것이 어렵다는 것을 자세히 설명했다.
알버트 에피모프 수베르 은행 연구혁신담당 부사장은 “동전백은 항상 예측불가능하다. 늘 모양이 다르고 안에 들어있는 동전 수도 다르다”며 “인간들조차 어떻게 다루어야 할지 고민하는 것을 로봇이 즉각 캐치해 상황에 따라 대응한다는 것은 강화학습을 통한 과학의 발전”이라고 말했다.
◆ 강화학습 훈련법이란?
강화학습으로 훈련할 때 AI는 주어진 상태에서 최적의 행동을 할 때까지 많은 시행착오를 겪는다. 제프 멘델홀 MS퍼스널라이저 프로그램 수석팀장은 “강화학습을 통해 AI를 양성하는 것은 강아지가 속임수를 쓰도록 가르치는 것과 비슷하다”고 설명했다. 또 영국 캠브리지 MS 리서치랩의 랠루카 조지스쿠 연구원은 “강화학습으로 프랑스어를 습득한 AI가 있다고 가정한다면 책상 앞에서 문법을 배우기보다 직접 현지에 가서 몸으로 부딪히며 대화하면서 익힌다. 이것이 강화학습의 특징”이라고 설명했다.
MS는 7일 제34회 신경정보처리시스템 컨퍼런스(NeurIPS 2020, 뉴럴IPS)에서 강화학습을 훈련시켜 퍼스널라이저를 개발한 과정을 담은 17편의 연구논문을 발표했다. MS 측은 공식 블로그에 “연구소 네트워크 전반에 걸친 강화 학습 팀에 투자함으로써 다양한 문제를 해결하기 위한 접근 방식 포트폴리오를 개발하고 있다”고 밝혔다.
논문에 참여한 MS 연구진은 단순히 참신하다는 것을 알리는 데 그치지 않고 강화학습의 기초 요소에 대한 정확한 이해와 고객 맞춤형 실용적 솔루션을 개발하는 데 초점을 맞췄다고 말한다. 뉴욕에 위치한 MS 리서치랩의 존 랭포드 박사는 “어떤 시나리오가 해결하기에 적합한지를 파악하는 것은 물론 기술적 토대를 조사하는데 많은 시간을 할애했다”고 강조했다.
뉴럴IPS에서 발표된 MS의 논문은 크게 ▲강화학습 ▲풍부한 관찰 ▲표현학습의 전략적 탐구 등 세 가지 주제로 구분된다. 연구자들은 이것들이 하나로 합쳐졌을 때 강화학습 기반 모델의 효율성이 올라가고 문제를 해결할 수 있는 범위가 넓어질 것이라고 기대하고 있다.
AI타임스 박혜섭 기자 phs@aitimes.com
[관련기사] "강화학습 모델 AI가 더 잘 만든다" 딥마인드 오준혁, LG AI연구원 창립 행사 발표
[관련기사] 딥마인드 Lab2D, 강화 학습 연구 효율 높인다
