“저는 바둑을 학문적인, 또 예술적인 접근방식으로 배웠어요. 그런데 인공지능이 나오면서 프로기사가 되는 것이 그렇게 값어치가 있을까 하는 본질적인 의문이 들었어요” 한 TV 방송에서 다시 태어나도 프로 바둑기사가 될 것인지 묻는 말에 대한 이세돌의 대답이었다.
이세돌은 25년간 프로 바둑기사로 활동했는데, 32연승을 하며 바둑의 전설로도 불렸다. 2016년 3월의 바둑 AI 프로그램 알파고와의 대국에서 패하기는 했지만, 그래도 알파고에 1승을 거둔 최초이자 최후의 바둑기사라는 타이틀도 갖고 있다.
시합 전 딥마인드의 알고리즘에 관한 설명을 들은 뒤 인터뷰에서 이세돌은 승리에 대한 자신감을 드러냈다. 그는 컴퓨터가 결코 모방하기 어렵다고 생각했던 직관을 어느 정도 흉내 낸 것 같다고 밝혔다. 또 “그동안 5대0을 장담해 왔는데, 5대0이 아닐 수도 있겠다는 생각을 했다”고는 했지만, 승리를 의심하지 않았다.
그러나 그는 패했고, 이후 2019년 공식 은퇴했다. 은퇴한 뒤 인터뷰에서도 알파고에 패한 것이 은퇴를 결심하게 된 이유 중 큰 부분이라고 밝히며, “어마어마하게 실력이 늘어난 AI를 사람이 넘어서지 못할 것”이라고 말했다. 삶 대부분에 바둑을 뒀고, 바둑이 그의 전부였고 앞으로도 전부일 것이라고 밝힌 그가 은퇴 결심을 하도록 만든 것은 AI의 마지막 보드게임 도전 과제였던 바둑을 두는 AI, 알파고(AlphaGo)였다.
딥마인드가 바둑 프로그램 개발에 착수한 것은 구글에 인수된 지 얼마 되지 않았을 때다. 체스 등 많은 보드게임에 수준급 실력을 보였던 딥마인드의 CEO 데미스 허사비스(Demis Hassabis)는 케임브리지대학교 시절에 바둑을 배우기 시작했는데, 초반에는 배우는 속도가 꽤 빨랐다. 그러나 그가 쉽게 섭렵했던 체스나 일본 장기 그리고 다른 게임들과 달리 그의 바둑은 실력이 늘어가는 속도가 빨라지지 않았다. 구글에 인수된 지 몇주 뒤 창업자인 래리 페이지를 만나 대화를 나누던 허사비스는 페이지와 공동 창립자인 세르게이 브린도 바둑에 관심이 있음을 알게 됐다.
대학 시절 배우던 바둑에 대한 도전 의식, 구글 수장들의 관심 그리고 무엇보다도 IBM의 딥블루 이후 마지막까지 정복당하지 않은 보드게임에서 인간 챔피언을 이겨 AI 역사의 한페이지를 장식하고자 하는 욕심이 생겼다. 아타리 게임을 하는 프로그램으로 AI 역사에 이미 한 줄을 기록할 수 있었던 딥마인드는 2014년부터 새로운 프로젝트에 착수했다. 딥러닝과 강화 학습(RL)으로 구현된 바둑 프로그램이었다.
당시는 딥블루가 체스 세계 챔피언 가리 카스파로프를 이긴 지 20년이 다 됐고, 대부분 보드게임에서 AI가 인간 챔피언들을 물리친 때였다. 그러나 아직 바둑에서는 인간 챔피언을 완벽하게 이긴 AI가 나타나지 않았다. 당시 개발된 컴퓨터 바둑 프로그램으로 유명했던 것은 일본에서 개발된 젠(Zen), 프랑스에서 개발된 크레이지 스톤(Crazy Stone) 등이 있었다. 이들은 프로 바둑 5단 정도의 수준으로 프로기사와의 일부 경기에서 승리했지만, 인간 챔피언을 완벽히 이길 수준은 되지 못했다.
1956년 아서 사무엘이 개발한 머신러닝 프로그램의 체커는 게임 트리 복잡성이 10의 40제곱 정도이고, 1997년 카스파로프를 이긴 딥블루가 시연한 체스 게임의 트리 복잡성은 10의 120제곱 정도다. 그런데 바둑의 게임 트리의 복잡성은 10의 360제곱 정도가 된다. 이는 우주에 존재하는 모든 원자의 수보다도 훨씬 큰 수다. 체스는 강력해진 컴퓨터의 연산력으로 탐색을 통해 풀이할 수 있었지만, 바둑은 탐색만으로 풀이할 수 없는 문제였다. 이런 복잡성은 체스의 8x8 말판에 비해 광대해진 19x19의 바둑 말판 크기에 가장 큰 영향을 받는다.
또, 초기에 정해진 위치로부터 어느 정도 제한된 이동의 수로 시작하는 체스와 달리, 바둑은 말의 초기 위치도 정해져 있지 않고 체스에 비해 훨씬 제한되지 않은 수를 둘 수 있다는 점도 영향을 미친다. 두 게임 모두 좋은 점수를 얻기 위해서 위치의 선점이 중요하지만, 체스는 말과 말의 1대 1의 대결 중심의 경기인 반면, 바둑은 말들이 놓여 있는 그룹, 즉 집을 형성하는 제한되지 않은 다수의 말들의 연결 관계와 상태가 중요하다. 그래서 이를 AI로 구현하기에는 체스 경기와는 비교할 수 없는, 근본적인 다른 문제라는 의견도 적지 않았다.
역사가 깊은 추상적인 전략 게임인 바둑을 AI로 구현하려는 초기의 노력은 미니맥스 트리 검색과 알파베타 가지치기를 포함한 전통적인 논리 기반의 AI 알고리즘을 통한 구현이었지만, 큰 성공을 거두지 못했다. 또 고수들의 기보를 바탕으로 지식 기반 AI 알고리즘을 구현해 상당히 효과를 봤지만, 고수의 수준을 따라잡기는 어려웠다.
그러나 2000년대 중반부터 의사결정을 위한 휴리스틱 탐색 기법으로 검색 공간에서 무작위 추출에 의한 탐색 트리를 확장하는 방식의 '몬테카를로 트리탐색(Monte Carlo Tree Search)' 알고리즘이 바둑 프로그램에 도입되며 바둑 AI도 크게 발전했다. 젠이나 크레이지 스톤 등 알파고 이전까지 대표적인 바둑 프로그램들이 이 알고리즘을 사용했다.
알파고는 딥러닝과 RL을 결합해, 화면만 보고도 아타리 게임을 마스터했던 DQN(Deep Q Networks) 알고리즘의 성공에 기반을 두고 있다. 그러나 바둑의 복잡성을 해결하기 위해서는 단순히 RL을 적용하는 것을 넘어, 방대한 탐색 공간을 효율적으로 탐색하고 고차원의 상태를 평가할 수 있는 정교한 알고리즘의 통합이 필수적이었다.
2014년부터 본격 개발된 알파고는 가능한 수들의 확률을 계산하는 정책망과 현재 위치의 승리 확률을 계산하는 가치망의 두개의 신경망을 활용했고, 학습 결과에 몬테카를로 트리탐색을 결합 적용해 수를 결정하도록 해서 한차원 더 높은 수준의 프로그램을 구현했다. 개발 과정으로는 그동안의 기보를 통한 지도 학습(SL)으로 고수들의 숙련도에 이르도록 훈련한 뒤 RL으로 다시 경기하며 전략을 개선했다.
이렇게 개발된 알파고는 2015년 10월 프로바둑 유럽 챔피언이었던 판후이를 꺾으며 정식 바둑 경기에서 핸디캡 없이 인간을 이긴 최초의 바둑 프로그램이 됐다. 2016년 3월에는 알파고 리(AlphaGo Lee)라는 이름의 프로그램이 이세돌을 4대 1로 꺾었다. 이듬해인 2017년 5월에는 개선된 버전인 알파고 마스터(AlphaGo Master)가 중국의 프로기사 커제를 3전 전승으로 이기며, 중국 기원으로부터 프로기사 9단을 수여 받았다. 알파고는 은퇴를 선언했다.
알파고가 이세돌에게 승리한 뒤, 딥마인드는 인간 전문가의 지식 없이도 초인적인 성능을 달성하는 것을 목표로 알파고를 재설계했다. 2017년 10월에 발표한 알파고 제로(AlphaGo Zero)가 그 결과였다. 이전의 알파고는 기보를 통해 학습했지만, 알파고 제로는 아타리 게임 프로그램처럼 인간의 기보나 SL 없이 무지 상태에서 무작위 플레이 및 RL로 바둑을 훈련했다. 알파고 제로는 알파고 리의 수준을 3일 만에, 알파고 마스터의 수준을 21일 만에 넘어서는 더 강력한 학습 능력을 보여줬다.
알파고 제로의 성공 이후 딥마인드는 자가 학습이 바둑뿐만 아니라 다른 복잡한 전략 게임에도 적용될 수 있는 일반적인 학습 메커니즘이라는 것을 입증하려고 했다. 그래서 공개된 것이 같은 해 12월의 알파제로(AlphaZero)로, 이는 바둑뿐만 아니라 체스와 일본 장기를 경기할 수 있는 좀 더 일반용 버전의 알고리즘이었다.
이런 알파제로를 기반으로 개발된 단백질 결합 구조 예측 알고리즘인 알파폴드(AlphaFold)는 2018년 단백질 구조 예측 학술대회에서 경쟁자들을 큰 차이로 물리치고 우승했으며, 2019년에는 알파스타(AlphaStar)가 스타크래프트2에서 최고수 자리에 오르기도 했다.
단백질은 아미노산 서열에 따라 접히면서 3차원 구조를 형성하는데, 이 구조가 단백질의 기능을 결정하므로 단백질 접힘 문제(protein folding problem)는 50년 넘게 생명과학의 핵심 난제로 여겨졌다. 과거에는 X선 결정학, 전자현미경 등 실험으로 구조를 알아냈지만, 이는 비용이 매우 많이 들고 긴 시간이 필요했다.
딥러닝 기반의 알파폴드는 한계가 있었지만, 문제 해결의 서막을 열어 줬다. 2020년에 공개된 알파폴드2는 딥러닝이 아닌 트랜스포머 기반의 모델로, 단백질 구조 예측 문제를 사실상 해결의 수준까지 올려주는 혁명적 발전이었다. 딥마인드는 다시 2024년에 디퓨전(Diffusion) 모델 요소를 통합한 알파폴드3를 공개하며 생체분자 간의 복합 상호작용까지 예측하는 수준으로 확장하면서 신약 개발 혁신의 기반을 마련했다. 이런 알파폴드 계열의 연구는 생명과학 분야에 큰 파급력을 가져왔고, 허사비스가 2024년 노벨 화학상을 받을 수 있게 한 배경이 됐다.
또 딥마인드는 알파제로를 기반으로 프로그래밍하고 문제를 해결하는 알파코드(AlphaCode), 새로운 행렬 알고리즘을 개발한 알파텐서(AlphaTensor), 하드웨어 수준까지 코드를 최적화해 주는 알파데브(AlphaDev)를 공개했다.
한편, 알파제로의 알고리즘은 성공적이었지만, 작동하기 위해서는 명시적인 규칙이 필요했다. 그러나 로보틱스나 산업 제어와 같은 현실 세계의 많은 영역은 물리적이고 예측 불가능하며 명시적인 규칙이 부족하다. 그래서 딥마인드는 환경의 규칙을 몰라도 최적의 전략을 스스로 학습하는 RL 시스템 뮤제로(MuZero)도 개발했다. 뮤제로의 아이디어는 알파텐서와 알파데브 개발에 반영됐으며, 구글의 융합에너지 제어나 로보틱스의 기술 발전에 적지 않은 영향을 미쳤다.
딥마인드와 구글 창립자들의 개인적 관심에서 시작된 바둑 프로그램, 알파고는 그 자체로 이세돌뿐만 아니라 전 세계인을 충격에 빠트렸다. 그러나 처음 인간의 지식인 기보를 바탕으로 학습하는 알파고로 시작된 딥마인드의 연구는 인간의 지식에 대한 의존도를 대거 낮추면서도 일반적인 다른 분야에 적용할 수 있는 알파제로로 확장됐다.
또, 궁극적으로 인간의 지식은 물론 환경 규칙의 제시에도 구애받지 않고, 스스로 세계 모델을 학습하고 복잡한 계획을 수행하는 시스템으로 발전해 나가는 듯하다. 이런 딥마인드의 연구는 '챗GPT'와 달리 현실 세계에 미친 영향은 상대적으로 적었지만, 진정한 인공일반지능(AGI)으로 한 단계씩 차근차근 올라서고 있는 것인지 모른다.
문병성 싸이텍 이사 moonux@gmail.com
