현재 알파고 제작사 구글 딥마인드 선임연구원
미시간대 박사...효율적인 심층강화학습 알고리즘 연구에 집중
탐구능력을 키우고, AI 연구 경험 많이 쌓을 것을 후배들에게 조언

[편집자 주] 4차산업혁명을 선도하는 국가로 발돋움하기 위해서는 인공지능(AI) 기술을 선진국 수준으로 끌어올리는 것은 피할 수 없는 도전적 과제다. 미국과 중국을 비롯한 강대국들의 틈바구니에서 우리의 목소리를 키워나갈 수 있는 길이기도 하다. 그 첫걸음이 인재 양성에 있다는 것은 주지의 사실이다.

때문에 해외 여러 곳에서 특히 미국 등 선진 국가에서 인공지능 전문가로 성장하고 있는 한국인 연구자들을 발굴하고 탐색하는 것은 매우 의미있는 일이다. 또, 미래의 한국 인공지능 기술 개발과 산업을 이끌어갈 인재들의 현재와 그 성과를 만나보는 건 즐거운 일이기도 하다.

사진=오준혁 박사
사진=오준혁 박사

“강화학습은 게임 등 시뮬레이션 환경에서 벗어나 향후 10년 내 실제 현실 문제에 응용되기 시작할 겁니다.”

 

광화문 사거리에 위치한 포시즌스 호텔은 그 위치만으로도 유명해질 수 있었는데, 2016년 3월 알파고와 이세돌이 세기의 대결을 펼친 장소로 대박(?)을 쳤다. 사실 유명해진 건 그것만이 아니다. 알파고와 강화학습이라는 생경한 단어를 머릿 속에 각인시키는 계기가 되었다. 물론, 인공지능(AI) 시대가 왔다는 명확한 신호를 던진 것도 포함해서다.

2014년 구글이 직원 50명에 불과한 딥마인드에 7천억원을 투자할 때도 놀랐지만, 알파고가 이세돌을 이긴 것도 당시에는 매우 놀란 일이었다. 더군다나 이세돌이 한판 밖에 못 이겼다는 아쉬움이 매우 컸던 분위기였다. 이후 커제를 비롯해 모든 대국에서 알파고가 완승(통산 68승 1패)을 거두면서 이세돌의 1승은 인류가 AI와 바둑 대결에서 건진 마지막 승리였음을 깨닫고자축해야 했다는 아쉬움으로 바뀌었다.

그 무렵, 미국 미시건 대학에서 박사과정을 하던 오준혁 박사도 딥마인드에서 인턴십을 했는데, 알파고의 놀라운 퍼포먼스를 보고 자신의 진로를 결정했다. 2018년 6월 박사학위를 받자마자 영국 런던으로 건너가 딥마인드에 합류해 현재 선임연구원으로 근무 중이다.

서울대을 졸업하고 IT업체에서 산업기능요원으로 온라인 게임 개발을 주로 했던 오 박사는 애초 딥러닝에 관심을 가지고 있었다. 미국 미시건 대학 박사과정 입학 후 강화학습 전문가인 이홍락 교수와 사틴더 교수의 지도를 받으며 이 분야에 뛰어들게 되었다.

모든 걸 새롭게 만드는 건 사람이 하는 일이 아니다. 두 지도교수는 오 박사에게 하늘이 준 인연이었다. 두 스승은 심층강화학습(Deep Reinforcement Learning)이라는 생소한 신생 분야에서 연구방향을 잡는 데 큰 도움을 주었다. 이홍락 교수는 2013년 IEEE가 선정한 인공지능 분야 세계 10대 연구자(AI's to Watch)로 선정된 바 있으며 알프레드 슬론 리서치 펠로우 2016에도 뽑힌 바 있는 자타가 공인하는 학자다. 사틴더 교수 또한 논문 피인용지수가 매우 높은 공인 강화학습 전문가다.

 

2015년 오 박사는 이 두 교수와 함께 세계적으로 저명한 학술지 NeurIPS(신경정보처리시스템학회)에 채택된 논문 ‘아타리 게임에서 딥 네트워크를 사용한 액션 조건 비디오 예측(Action-Conditional Video Prediction using Deep Networks in Atari Games)’에 공저자로 참여했다. 이 논문은 오 박사 본인이 지금도 가장 좋아하는 논문이다. 고화질 비디오를 픽셀 단위로 예측이 가능하다는 것을 처음 보여주었다. 딥러닝이 강화학습에서 환경 자체 직접 모델링에 이용될 수 있다는 것을 확인해 준 것으로 평가받았다.

그는 2015년 이후 매년 ICML, CVPR, NeurIPS 등 세계적인 학술지에 빠짐없이 논문을 게재해 왔다. 2016년 ICML에 실린 마인크래프트 미로 실험(Control of Memory, Active Perception, and Action in Minecraft)은 언론에 소개도 될 정도로 관심을 끌었다. 일반적으로 당시에는 2D 게임을 이용해 연구하던 분위기였다. 그런데 동물의 기억력과 지능을 테스트할 때 사용하는 T-maze같은 미로들을 마인크래프트에 구현하고, 강화학습 에이전트들이 그런 지능을 가질 수 있는 지 학습시켜 본 것이 인지과학자들의 관심을 끌었던 것이다.

지난 해 오 박사가 참여한 스타크래프트Ⅱ 프로그램과 연관된 ‘알파스타’ 프로젝트는 멀티 에이전트 강화학습 알고리즘의 새로운 가능성을 보여준 것으로 평가받는다. 이 내용은 네이처 지에 ‘멀티 에이전트 강화 학습을 사용하는 스타크래프트 II의 그랜드 마스터 레벨(Grandmaster level in StarCraft II using multi-agent reinforcement learning)’이란 이름의 논문으로 발표됐다. 수십 명의 개발자가 참여한 이 프로젝트는 기존의 바둑이나 비디오 게임과는 차원이 다른 복잡성을 가진 전략시뮬레이션 게임을 대상으로 한 것이다. 여기서 AI가 프로게이머 수준까지 도달할 수 있도록 만든다는 것은 새로운 돌파구를 뚫은 것으로 평가받는다. 게다가 세계 최고 수준의 게이머를 5:0으로 완파했다는 사실은 알파고 이후 또 다른 충격을 주었다.

이쯤 되면 기본(본질)을 생각하게 되기 마련이다. 백 투더 베이직(Back to the basics)이라고 말들 하지 않던가. 그는 최근에 강화학습 알고리즘 자체에서 학습하는 문제에 관심이 많다. 수십 년간 계속 발전해 온 강화학습 알고리즘을 더 효율적으로 만들 수 있는 방안을 연구 중이다. 올해 NeurIPS2020에서 논문으로 발표 예정이다.

딥러닝과 강화학습은 기여도 할당(credit assignment) 문제를 푸는 것이라 상호보완적이라 보는 오 박사는 두 분야가 함께 진보할 것이라고 예상한다. 강화학습 알고리즘 개발에서 표현학습 부분에서 중요한 역할을 수행할 것이고, 딥러닝에서도 미분 불가능(non-differentiable) 의사결정 시 강화학습이 중대한 역할을 할 것이라고 말한다.

올해 모교인 서울대의 AI여름학교에서 강의를 했던 그는 AI개발자가 되고 싶어 하는 후배들에게 인턴십 등을 통한 경험을 쌓을 것을 조언한다. 꿈을 키우는 중학생에게도 구체적인 준비보다 탐구 능력의 중요성을 강조한다. 최근 경쟁이 치열해진 AI분야 유학 지원자들에게도 연관된 연구 경험을 최대한 확보할 것을 제안한다. 주어진 여건에서 옆을 보지 않고 자신의 역량과 관심을 꾸준히 키우며 성장해 온 그만의 경험론이기도 하다.

다음은 오 박사와 일문일답한 내용이다.

-박사학위 취득 후 곧장 구글 딥마인드로 옮겨서 계속 연구 중인 것으로 알고 있다. 구글 딥마인드로 가시게 된 특별한 이유라도 있나요

“딥마인드는 제가 연구하는 강화학습 분야에서 혁신적인 연구들을 가장 활발히 하고 있기 때문에 졸업 후 이곳으로 오게 되었습니다. 제가 박사과정을 하는 중에 딥마인드에서 알파고(AlphaGo)와 같은 놀라운 연구 결과들을 내는 것을 보면서 저도 졸업 후에 합류해서 그런 의미있는 연구를 하고 싶다는 생각이 들었습니다. 마침 박사과정 3년차 때 딥마인드에서 인턴쉽을 하면서 훌륭한 동료 연구원들과 연구 중심적인 환경에 더욱 매력을 느끼고 졸업 후에 가기로 결심하게 되었습니다.”

-한국의 IT회사에서도 잠시 계셨던데, 거쳐 왔던 곳에서 어떤 연구개발을 했나요

“박사 유학을 떠나기 전에 병역 의무를 해결하기 위해 산업기능요원으로 근무하였습니다. 학부 재학 중 휴학하고 간 것이기 때문에 특별히 연구를 한 것은 아니고 프로그래머로서 주로 온라인 PC게임을 개발하였습니다.”

-공개하신 자료를 보면, 처음부터 강화학습을 주로 연구하신 건 아니었던 것으로 보인다.강화 학습에 관심을 가지게 된 특별한 계기가 있었나요? 연구 분야에 대해 개략적으로 설명한다면

“강화학습(Reinforcement Learning)은 머신러닝의 한 분야로 환경과 상호작용하며 보상(Reward)을 최대화하기 위해 순차적인 의사 결정을 내리는 에이전트(Agent)를 학습시키는 것이 주된 목표입니다. 입출력 예시가 데이터로 주어지는 지도 학습(Supervised Learning)과는 다르게 강화학습에서는 입출력 예시 없이 에이전트 스스로 경험을 통해 어떻게 행동해야 미래에 큰 보상을 받을 수 있는지 학습해야 해서 문제가 더욱 어려워집니다.

제가 연구하는 분야는 심층강화학습(Deep Reinforcement Learning)으로 간단히 표현하면 강화학습 문제에 딥러닝(Deep Learning)을 적용하여 더욱 어렵고 복잡한 문제를 풀고자 하는 분야입니다. 과거에는 복잡한 강화학습을 풀기 위해서는 인간이 환경으로부터 유용한 정보를 직접 선별하여 입력으로 제공해줘야 했던 반면에, 딥러닝을 적용하면서부터 그런 과정 없이 에이전트가 환경으로부터 보상만으로도 직접 학습할 수 있어서 더 복잡하고 어려운 문제까지 풀 수 있게 되었습니다. 이 분야는 딥마인드에서 2015년과 2016년에 네이처에 논문을 연달아 게재하면서 비교적 최근에 각광 받기 시작하였습니다.

저는 처음에는 강화학습 보다는 딥러닝 분야에 관심이 있어서 이 분야의 선구자이신 미시건 대학의 이홍락 교수님께 박사 과정을 지원하여 합격하였습니다. 그런데 제가 입학하던 시기(2014년)에 이홍락 교수님께서 강화학습 분야의 대가인 사틴더 교수님과 심층강화학습(Deep Reinforcement Learning)을 주제로 협동 연구를 시작하고 계셨고, 이 협동 연구에 참여할 박사과정 학생을 찾고 계셨습니다.

저는 강화학습에 대한 지식이나 경험은 없었지만 입학 직후에 당장 구체적인 연구 주제가 없던 제 입장에서는 좋은 기회라고 생각해서 자원하였고 그렇게 두 교수님께 지도를 받으면서 연구를 하게 되었습니다. 되돌아보면 이 분야가 막 발생하기 시작한 시점에 연구를 시작했기 때문에 굉장히 운이 좋았던 것 같습니다.”

 

-지난해 발표하신 논문 중에 스타크래프트 AI플레이어 ‘알파스타’에 관한 내용이 눈에 띄었다. 이 연구의 성과에 대해 간략히 설명해준다면.

“2016년에 딥마인드의 알파고가 이세돌 프로 바둑 기사를 상대로 승리한 것이 굉장히 화제가 됐었는데, 스타크래프트는 바둑에 비해 비교도 안될 정도로 복잡한 실시간 전략 게임입니다. 이 게임은 지난 십수년간 많은 사람들이 플레이하기도 했고 수준 높은 프로게이머들이 경쟁하는 e스포츠가 발달해있기도 합니다. 그동안 전문가들이 스크립트를 사용해서 미리 정해준 규칙대로 행동하는 스타크래프트 AI를 개발해왔지만, 이런 AI들은 프로게이머 수준에 전혀 미치지 못할 뿐더러 구사하는 전략들이 굉장히 단순하거나 인간보다 훨씬 빠른 빠른 반응 속도에 의존하는 경향이 강했습니다.

반면에, 알파스타 프로젝트에서는 인간이 어떻게 할지 규칙을 정해주는 것이 아닌 경험을 통해 학습하는 머신러닝 관점으로 접근하여 이 문제를 풀어내었습니다. 이 과정에서 대규모 학습을 위한 엔지니어링, 개선된 딥러닝 아키텍쳐, 효율적인 멀티 에이전트(Multi-Agent) 강화학습 알고리즘 등을 개발하였습니다. 그 결과 알파스타는 프로게이머와 견줄 수 있는 수준 (상위 0.2%)에 도달하였고, 사람들이 그동안 발견하지 못했던 흥미로운 전략들도 발견하였습니다. 알파스타는 딥러닝과 강화학습을 통해 스타크래프트와 같이 굉장히 복잡한 문제도 풀 수 있다는 것을 보여준 데에 큰 의미가 있다고 생각합니다.“

-요즘 관심을 가지고 계신 연구 방향은 어떤 분야인가요

“최근에는 강화학습 알고리즘 자체를 학습하는 문제에 관심을 가지고 있습니다. 현재 널리 사용되고 있는 강화학습 알고리즘들은 수십 년간 연구자들이 수많은 이론 정립과 실험을 통해 개발해온 것인데, 발상을 전환해보면 강화학습 알고리즘 그 자체도 순차적인 의사 결정을 내리고 보상을 받는 하나의 강화학습 에이전트라고 볼 수가 있습니다.

이런 관점에서 보면 효율적인 강화학습 알고리즘을 발견하는 과정을 마치 보상을 최대화하는 에이전트를 학습하는 또 다른 강화학습 문제로 표현할 수 있습니다. NeurIPS 2020에 발표할 예정인 논문에서 이러한 방식으로 꽤 효율적인 강화학습 알고리즘을 학습할 수 있다는 가능성을 보여주었는데, 아직은 초기 단계이지만 나중에 큰 임팩트를 만들 수 있는 주제라서 개인적으로 재미있게 연구하고 있습니다.”

-박사학위를 받으신 미시간 대학에서 이홍락 교수와 사틴더 싱 교수의 도움을 받았다고 기재했는데 특별한 이유가 있나요

“이홍락 교수님과 사틴더 교수님은 제 공동 지도교수님으로서 연구 내적으로나 외적으로도 정말 많은 가르침과 도움을 주셨습니다. 심층강화학습(Deep Reinforcement Learning)이 신생 분야다보니 선행 연구가 거의 없었는데 연구 방향을 잘 잡아주셨고, 그 과정에서 제 의견도 많이 존중해주셨습니다.

연구 외적으로도 제 박사과정 펀딩을 잘 해결해주셔서 수업 조교 등을 하지 않고 연구에 완전히 집중할 수 있게 해주셨고, 졸업 시기나 진로를 결정할 때에도 제 입장을 잘 배려해주셨고 진솔한 조언을 해주셨습니다. 이 두 분 밑에서 연구한 것이 제게는 정말 큰 행운이라고 생각합니다.”

-2016년 언론에 소개되었던 마인크래프트 미로 실험은 어떤 의미를 가진 것으로 평가하나요

“해당 논문은 딥러닝과 강화학습을 통해 3D 공간에서 1인칭 시점으로 직접 움직이면서 기억력을 요구하는 행동들을 학습할 수 있다는 것을 처음으로 보여주었습니다. 당시에는 강화학습에 딥러닝을 적용하면 바둑이나 간단한 2D 게임을 학습할 수 있다는 연구 결과가 나온 지 얼마 안된 시점이었기 때문에, 조금 더 실제 현실에 가까운 3D 환경에서 마치 인간 같은 행동을 보여주는 실험 결과가 흥미를 끌었던 것 같습니다.

그리고 이 논문에서는 게임이 아니라 인지과학자들이 동물의 기억력과 지능을 테스트할 때 사용하는 T-maze같은 미로들을 마인크래프트에 구현하고, 강화학습 에이전트들이 그런 지능을 가질 수 있는 지 학습시켜본 것이기 때문에 인지과학/뇌과학 연구하시는 분들에게도 관심을 받았던 것 같습니다.”

- 개인적으로 가장 좋게 평가하는 논문이나 연구가 있다면

“개인적으로 2015년 NeurIPS에서 발표한 ”Action-Conditional Video Prediction using Deep Networks in Atari Games“을 꼽고 싶습니다. 이 논문에서는 아타리 게임처럼 복잡한 환경에서 에이전트가 취하는 행동에 따라 미래가 어떻게 변하는지를 뉴럴 네트워크로 예측하는 모델을 제시하고, 그 모델이 강화학습에서 어떻게 유용하게 쓰일 수 있는 지를 보여주었습니다.

지금은 워낙 후속 연구가 많이 진행되어 당연한 결과처럼 보이지만, 당시에는 고화질 비디오를 픽셀 단위로 예측하는게 가능하다는 것을 처음 보여준 것이기도 했고, 딥러닝이 강화학습에서 행동을 학습하는 것 뿐만 아니라 환경 자체를 직접 모델링하는 데에도 쓰일 수 있다는 것을 처음 보여준 논문이라 개인적으로 큰 의미가 있는 논문이라고 생각합니다.”

-강화학습하면 구글 딥마인드가 독보적인 것으로 알려져 있는데, 향후 10년 내 어느 정도 수준까지 발전할 것으로 예상하나요

“강화학습 분야도 요즈음 워낙 빠른 속도로 발달하고 있어서 10년 후에 어떤 수준일지 쉽게 예측하기가 어렵습니다. 다만, 지금의 연구 추세를 보면 앞으로는 강화학습 분야에서의 진보가 점점 시뮬레이션 환경에서 벗어나 로봇 등 실제 현실 문제에 응용되기 시작할 것 같습니다.”

-한국의 강화학습 연구에 대해서는 어떻게 평가하나요

“한국에서는 강화학습 연구가 다른 머신러닝 분야(컴퓨터 비젼, 자연 언어 처리 등)에 비해서는 상대적으로 덜 인기있는 것 같습니다. 다만, 최근에 강화학습 알고리즘들을 구현한 코드나 벤치마크가 잘 공유되고 있고, 한국 학생들의 수준이 굉장히 높기 때문에 학생들이 관심만 가진다면 강화학습 분야에서도 앞으로 좋은 연구들이 많이 쏟아져 나올 것이라고 생각합니다.”

-AI 기술 발전 속도를 볼 때, 개인적으로 가장 빨리 올 것이라고 예상하는 사회적 변화로 어떤 것을 들 수가 있을까요

“그동안 우리가 경험과 노하우로 해왔던 일들은 모두 데이터만 수집할 수 있으면 하나 둘씩 머신러닝으로 대체될 것이라고 생각합니다. 최근의 성과를 봤을 때는 자율주행이나 헬스 케어 산업이 머신러닝으로 인해 많이 변화할 것 같습니다.”

 

-딥러닝과 강화학습은 연구자 입장에서 앞으로 어떤 식으로 관계를 계속 맺어가게 될까요

“넓은 시각에서 보면 딥러닝이나 강화학습이나 기여도 할당(Credit Assignment)문제를 푸는 것이기 때문에 서로 상호 보완적인 관계에 있다고 생각합니다. 딥러닝은 강화학습 문제에서 중요한 부분을 차지하는 표현학습(Representation Learning)에서 핵심적인 역할을 하고 있기 때문에 앞으로 딥러닝 분야에서의 진보가 그대로 강화학습 분야의 진보로 연결될 것이라고 생각합니다.

반대로, 딥러닝에서도 미분불가능한(non-differentiable) 의사결정이 동반되는 경우에는 강화학습이 필요하기 때문에 앞으로도 그런 종류의 문제에는 강화학습 알고리즘들이 중요한 역할을 할 것입니다.”

- 한국의 AI 개발자들과 교류가 있나요? 혹시 있다면, 앞으로 어떤 식으로 발전해 나가길 희망하나요

“가끔 세미나나 여름학교 등으로 몇몇 학교에서 발표나 강연은 종종 했지만 개발자분들과 특별히 교류하고 있지는 않습니다. 앞으로는 좀 더 긴밀히 교류하고 협동 연구의 기회가 있으면 좋을 것 같습니다.”

-서울대를 졸업했는데, 한국의 AI개발자가 되고 싶어 하는 후배들에게 조언을 한다면

“요즘에는 양질의 무료 온라인 강의나 공개된 코드도 많아서 그런 자료들을 잘 활용하면 AI 관련 배경 지식을 쉽게 쌓을 수 있을 것 같습니다. 게다가 국내에 훌륭한 머신러닝 연구하는 연구실들과 회사들이 많기 때문에 인턴십 등을 통해서 AI관련 경험을 많이 쌓는 것이 박사 유학이나 취업에 도움이 될 것이라고 생각합니다.”

-중2가 인공지능 개발자가 되면 돈을 많이 벌고 유명해질 수 있다고 생각한다. 학부모로서 중2 자녀의 꿈을 잘 키워주려면, 어떻게 해야 할까요

“개인적으로는 중학교 2학년이면 아직 어린 나이이기 때문에 인공지능 개발자가 되기 위해 특별한 준비를 하는 것 보다는 인공지능에 대한 관심은 유지하되, 보다 더 다양한 경험을 통해 본인의 흥미나 적성을 탐색하는 것이 좋다고 생각합니다.

미래에 연구자가 되고 싶다면 책을 많이 읽고 사물이나 현상을 이해하고 탐구하는 능력을 키우는 것이 나중에 어떤 연구를 하든 도움이 될 것이라고 생각합니다. 수학 공부나 유학 등 구체적인 준비는 대학교에 입학한 후에 그때 상황에 맞춰서 해도 늦지 않을 것 같습니다.“

-AI분야로 미국이나 해외로 유학 가고자 희망하는 분들에게 조언을 한다면

“요즘 AI 분야는 굉장히 인기가 많고 경쟁이 치열해서 유학에 지원해서 합격하는 것이 굉장히 어려워졌다고 알고 있습니다. 경쟁이 치열한 연구실에서는 다른 것보다도 연구 경험과 추천서가 가장 중요한 역할을 하는 것 같습니다. 그러니 학점이나 영어 점수를 올리는데 너무 많은 시간을 쏟기보다는 국내나 해외에 연구가 활발한 교수님들께 적극적으로 연락해 인턴 기회를 얻어서 연구 경험을 최대한 쌓고 좋은 추천서를 받으시는 것을 추천 드립니다.

다른 한편으로는 박사 과정은 결국 학교 랭킹보다도 결국 본인이 훌륭한 연구를 하고 졸업하는 것이 중요하기 때문에 지원하실 때 단순히 랭킹 순서대로 지원하기보다는 본인이 관심 있는 분야에서 활발히 연구하는 교수님들을 찾아서 지원하시는 것을 추천합니다.”

 

[AI 초대석] [글로벌 Lab 젊은 과학자] "향후 10년 컴퓨터 비전 분야 비약적인 변화 보일 것"....미 캘리포니아대 이용재 교수

[AI 초대석] [글로벌Lab 젊은 과학자] "10년 내 몸짓과 표정 이해하는 AI 나와요"...주한별 페이스북 AI연구소 박사

[AI 초대석] [글로벌 Lab 젊은 과학자]구글과 4족 로봇 만든 하세훈 미 조지아텍 교수

 

 

 

 

키워드 관련기사
  • 딥마인드 알파폴드2 쇼크 이후 학계 비판 쇄도... “과잉 보도다”
  • 딥마인드의 새로운 AI알고리즘 '뮤제로', "알파고보다 더 센놈이 나타났다"
  • [글로벌 Lab 젊은 과학자] 개인정보보호 머신러닝, 가장 빠르게 성장 중인 AI 분야 ...조지아대 이재우 교수