딥마인드 연구진이 머신러닝의 한 영역인 강화학습(Reinforcement Learning)이 머지않은 미래 인간의 인지 능력을 복제하고 범용인공지능(Artificial General Intelligence, AGI) 수준으로 발전할 것이라고 주장했다.
이들은 ‘보상이면 충분하다(Reward is Enough)’는 제목의 논문을 ‘인공지능 연구 저널(The Journal of Artificial Intelligence Research)’에 지난 5월 24일 발표하며 “강화학습이 AGI를 달성하는 시점에 거의 모든 인지 작업에서 인간을 능가하는 AI가 탄생할 것”이라고 예측했다.
IT 전문가들은 2020년대에 접어들면서 AI에게 최고의 시대가 왔다고 입을 모은다. 많은 글로벌 기업들이 대형 AI 프로젝트에 더 많은 돈을 투자하고 있고, 새로운 AI 스타트업 투자금도 사상 최대를 기록하고 있기 때문. 미 컨설팅 전문회사 매킨지는 대부분 학자·연구원들이 “적어도 다음 10년 안에 인간 수준의 인공지능이 성취될 가능성에 대해 긍정적으로 전망하고 있다”고 리서치 결과를 밝히기도 했다.
이번에 논문을 발표한 딥마인드 연구원들도 마찬가지다. 이들은 논문에서 “AGI는 머나먼 환상이 아니다. 대부분의 사람들이 생각하는 것보다 더 빨리 우리에게 올 것”이라고 전망했다. 이 같은 주장의 근거는 강화학습에 있다.
◆ RL...적절한 보상(reward)으로 직접 정답 찾아가는 학습법
강화학습은 알고리즘 스스로 다양한 시도를 통해 최적의 결과치를 낼 수 있는 조합을 찾아가는 훈련방식을 뜻한다. 사람의 경우 걸음마를 배울 때 어느 쪽 다리를 얼마만큼 벌려 어떻게 디뎌야 하는지 세세하게 가르쳐주지 않는다. 이제 막 발을 떼기 시작한 아이가 넘어지기도 하고, 비틀거리면서 천천히 걷는 방법을 익힌다.
[관련기사] "알파고도 칠전팔기?" [특별기획 AI 2030] ③ 강화학습
[관련기사] “인간 뇌 기능을 AI에 적용해보자” [특별기획 AI 2030] ⑱ 뇌인지 발달모사
이처럼 강화학습도 직접 도전하며 깨우치는 시행착오를 통해 최종적으로 완전한 습득에 도달한다. 이 과정에서 성공하면 보상을 하고, 실패하면 벌칙을 주는 훈련법이 적용된다. 딥마인드 연구진은 논문에서 강화학습만의 이같은 ‘리워드’에 주목하며 “강화학습 에이전트(agent)는 목표를 달성하기 위해 지능과 관련된 다양한 능력을 보이는 복잡한 행동이 필요한데, 적절한 순간에 상을 줌으로써 긍정의 신호를 보내는 게 크게 작용한다”고 밝혔다.
쉽게 말해 에이전트는 보상을 받거나 그렇지 않은 경우에 따라 시행착오 결과를 판단하고 그에 맞게 다음 행동을 달리 할 수 있다는 설명이다.
◆ 비슷한 구조 갖춘 범용인공지능(AGI)-강화학습
이는 주어진 모든 상황에서 이에 기반한 학습 외 스스로 생각하고, 창작할 수 있는 능력을 갖춘 AGI의 전신이 되기에 충분히 가능하다.
연구진은 논문에서 식량(도토리)을 비축하는 다람쥐와 가정용 주방로봇을 예로 들어 설명했다. 배가 고픈 다람쥐 한 마리가 있다고 가정해보자. 포만감이라는 보상을 극대화하기 위해 먹기 좋은 도토리를 구별하는 ▲인지능력, 그렇게 모은 도토리를 자신만이 아는 곳에 보관하는 ▲운동제어 능력 ▲계획수행 능력, 그리고 이 과정을 잊지 않는 ▲기억력까지 하나의 의사결정 시스템으로 이해될 수 있다. 각 과정마다 포만감이 가까워지는 누적보상이 뒤따른다.
두 번째 예로 주방용 로봇은 본체로부터 감각을 받아(receive) 명령을 전송(send)하는 의사결정 시스템으로 구현된다. 다람쥐의 단일 목표가 굶주림을 최소화하는 것이었다면, 이 로봇은 청결유지를 위한 임무를 수행한다. 청결도를 측정하고 이에 맞는 행동을 할 때마다 보상이 뒤따른다는 것을 학습한 로봇은 깨끗하거나 지저분한 식기를 구별하는 ▲인지능력, 무엇이 그릇이고 부엌칼인지 아는 ▲지식, 식기를 다루는 조작법을 익힌 ▲운동 제어 능력, 식기 위치를 아는 ▲기억력이 동반된다. 여기에 다람쥐와 다른 점이 있다면 사람의 언어를 이해하고 적절한 대화도 가능한 ▲언어인지 능력과 가족의 구성원으로 함께 살 수 있는 ▲사회지능 능력이다.
연구진은 AGI가 스스로 의사결정을 내리고, 그것이 옳은 판단인지를 깨닫는 수준에까지 도달하려면 강화학습의 보상신호가 중요하다고 주장했다. 주방용 로봇처럼 목표를 달성하기 위해서는 지능과 관련된 각기 다른 능력의 복잡한 행동이 필요한데 여기에는 자율적 생각도 요구되기 때문이다. 이들은 논문에서 “강화학습은 지식, 학습, 지각, 사회 지능, 언어, 일반화, 모방과 같은 훈련에서 보상제도를 통해 처음에는 이해하기 어려운 여러 능력을 더 깊이 탐구했다”며 “이 방법은 AGI를 이해하고 구성하는 직접적인 경로를 제공할 수 있을 것”이라고 밝혔다.
다만 미 기술매체 벤처비트는 이 논문에 대해 “설득력 있는 주장이지만 동시에 좁은(narrow) AI 사용 사례”라고 평가했다. 또 “일부 전문가들은 이 논문을 과학을 발전시키는 목적이 아닌 연구실을 유지하기 위한 홍보용으로 여기고 있다”고도 덧붙였다. 그러면서도 “지난해 GPT-3, DALL·E와 더불어 올해 중국의 WuDao 2.0의 출현으로 초거대 인공지능이 속속 등장하고 있다”며 “딥마인드가 맞다면 그 전에 산업계와 정부에서 책임감 있는 AI윤리 관행을 심어줘야 할 것”이라고 강조했다.
AI타임스 박혜섭 기자 phs@aitimes.com
- "열심히 일했는데 AI에게 해고당했다"...아마존 직원, AI 평가시스템에 불만 제기
- [세계 속 AI ① 중국: 下 기업편] AI산업 규모 2015년 이후 연 평균 54% 초고속 성장
- [세계 속 AI ② 네덜란드] '정부 AI 준비 지수' 전 세계 10위권 AI 강소국
- [2021 AI기업 탐방] 알체라② “메타버스, 거품 아니다. 곧 다가올 세상”
- 딥마인드, 단백질 구조 초거대 데이터베이스 공개...인간 단백질 98.5% 담아내
- 구글 인력·컴퓨팅 없이 알파폴드2 재현한 로제타폴드, 어떻게 가능했나?...연구 주도한 백민경 박사 발표 내용
- 딥마인드 바둑 기사 '뮤제로'...유튜브 비디오 압축 기사로 변신
