세기말 전후의 통계학 기반 머신러닝 기술의 발전과 확산은 AI 연구에 있어서 아주 큰 한걸음이었지만, 그것만으로는 AI로 가는 목적지에 다다를 수 없었다. 통계학 기반의 머신러닝은 특히 자연어 처리에 활용되면서 큰 발전을 보여줘 음성 인식, 이미지 인식 연구에도 확대 적용됐고, 꽤 진보된 결과를 보여 줬다.
그런데, 이런 진보는 일부 분야에서는 상당히 효과적이었지만, 여러 부분에서는 여전히 한계를 보여줬고, 기존의 길고 지루한 기호주의적 접근을 병행할 수밖에 없는 상황이 발생하기도 했다. 그런 상황에서 발전된 머신러닝 기술과 함께 신경망의 발전은 더 효율적이고 효과적인 AI로 가는 길을 밝혀줬고, 그 길은 딥러닝으로 향하고 있었다.
그렇지만 2000년대 중반까지는 적어도 신경망에는 여전히 AI의 2차 겨울 시기였고 암흑기였다. 신경망은 통계학을 모르는 사람이 하는 연구라는 비난을 듣기도 했고, 학술회의에서도 신경망 논문은 환영받지 못하는 상황이 이어지며 연구 논문 중 신경망에 관한 부분은 미미한 수준에 불과했다.
따라서 신경망 연구자들조차 자신의 논문에서 신경망이라는 용어 대신 ‘함수 근사(Function Approximation)’나 ‘비선형 회귀(Nonlinear Regression)’와 같은 다른 단어를 사용했다. 심지어 얀 르쿤마저도 자신의 대표적인 연구물인 컨볼루션 신경망(Convolution Neural Network)에서 신경이라는 단어를 빼고 컨볼루션망(Convolution Network)이라고 불러야 했을 정도로, 당시에는 신경망에 대한 좋지 않은 인식이 만연해 있었다.
그렇게 북미 지역에서 신경망 연구가 찬바람을 맞고, 많은 연구가 이루어지지 못하던 시절, 유럽에서 꾸준히 그리고 제대로 된 신경망을 연구하던 그룹이 있었다. 하지만, 그들은 그 당시에도 그리고 그 이후에도 북미 AI 연구계에 가려져 크게 알려지지 못했다.
심층 신경망, 즉 딥러닝 연구로 컴퓨팅계의 노벨상이라고 하는 튜링상(Turing Award)을 2018년에 공동 수상한 3인은 현대적 AI, 특히 딥러닝을 이야기할 때 빠질 수 없는 사람들이다. 그들은 토론토대학교 교수이자 구글 브레인 프로젝트를 이끌었던 제프리 힌튼, 뉴욕대학교 교수로 페이스북의 AI 수석 과학자를 역임한 얀 르쿤, 그리고 몬트리올대학교 교수이자 엘리먼트 AI(Element AI)의 설립자인 요수아 벤지오 등 3인이다. 이들은 ‘AI의 대부’ 또는 ‘딥러닝의 대부’로도 불린다.
이들은 독립적으로 자신들의 아이디어를 발전시켜 왔지만, 때때로 공동으로 논문을 발표하기도 하고 공동 강연도 자주 하며 지난 30여년간 딥러닝 AI 개발의 길을 같이 걸어왔다고 해도 과언이 아니다. 굳이 이들의 개인적 인연의 시작을 찾아보면 힌튼은 얀 르쿤의 박사 논문 심사를 해줬고 이후 토론토대에서 박사후과정을 밟을 수 있도록 해줬다. 르쿤과 벤지오는 벨 연구소에서 함께 작업하며 가까워졌다. 또 2004년 힌튼이 캐나다 첨단연구소(CIFAR)에서 적응 인지와 신경망 컴퓨팅 개발 프로젝트를 진행할 때 르쿤과 벤지오를 초빙해 공동으로 관리하기도 했다.
그런데 비슷한 시기에 AI, 특히 딥러닝 연구를 했고 AI 발전의 기여도 측면에서도 전혀 뒤떨어지지 않는 다른 과학자 그룹은 북미 대륙에서 크게 이름이 알려지지 않았으며, 때로는 딥러닝계의 대부 3명과 딥러닝 발전 기여도에 관해 신경전을 벌이기도 했다. 그들은 뮌헨 공과대학교의 컴퓨터 과학과 교수 유르겐 쉬미트후버(Jürgen Schmidhuber)와 젭 호흐라이터(Sepp Hochreiter), 알렉스 그라브(Alex Graves)를 포함한 쉬미트후버의 제자들이다.
AI 발전에서 중요한 혁신으로 이어진 그들의 연구가 활발히 진행되던 때는 신경망이 선호되지 않았던 시기, 특히 AI의 2차 겨울이 한창이던 때였다. 그들의 첫번째 기여는 한동안 신경망 연구자들을 괴롭혀온 문제 즉, 다층 신경망을 구현했음에도 학습이 진행되지 않는 문제인 ‘기울기 소실(Gradient Vanishing)’을 식별해 낸 호흐라이터의 1991년 학위 논문이었다.
이 논문을 기반으로 쉬미트후버와 호흐라이터는 역전파를 적용한 학습에서 불충분하고 학습이 감소하는 오류 문제를 효율적으로 해결하는 방안을 제시하는 기술 보고서를 1995년에, 정식 논문을 1997년에 ‘LSTM(Long Short Term Memory, 장단기기억)’이라는 이름으로 발표했다. 그들의 LSTM은 1995년의 NIPS(Neural Information Processing Systems) 컨퍼런스에서 발표가 거부되기도 하고, 1997년에는 MIT에서 논문 출판이 거부되기도 했다. 그러나 LSTM 논문은 이후 수십년 동안 가장 많이 인용된 순환신경망(Recurrent Neural Network, RNN) 논문이고, 딥러닝에 혁명을 일으킨 순환 신경망의 중요한 알고리즘이었다.
1997년에 개발된 LSTM은 쉬미트후버와 다른 연구자들에 의해 꾸준히 개선됐고, 딥러닝 분야에서 컨볼루션 신경망과 많이 사용된 양대 신경망인 순환 신경망의 가장 중요한 기술이 됐다. 2015년 이후, 구글은 메신저 서비스 ‘알로(Allo)’에 LSTM을 사용했고, 구글 보이스에서 음성인식을 위해 사용했으며, 구글 번역에서는 LSTM을 사용해 번역 오류를 60% 가까이 줄이기도 했다.
LSTM은 페이스북의 자동번역, 마이크로소프트의 대화 인식 시스템에 적용됐으며, 애플의 시리와 퀵타입(Quicktype), 아마존의 알렉사에도 활용되는 등 음성 인식, 패턴 인식, 텍스트 인식 등과 기상 예측 등 시계열 분석 분야에 널리 활용됐다. 또 AI를 공부하는 사람들이 컨볼루션 신경망과 함께 가장 많이 공부하는 알고리즘이기도 하다.
어린 시절부터 자신보다 더 똑똑한 기계를 만들어 일을 시키고 자신은 은퇴하는 것이 꿈이라고 말했던 쉬미트후버는 대학생이 되던 1980년대에 신경망에 빠져들어 평생 연구를 했다. 뮌헨 공과 대학에서 학부와 박사과정을 마치고 그곳에서 제자들을 길러내다가, 1995년부터 스위스의 달레몰레 인공지능연구소(Dalle Molle Institute for Artificial Intelligence Research, IDSIA)를 이끌기도 하고, 2009년부터는 스위스의 루가노 대학에서 AI 교수를 역임하고 있다.
LSTM 외에도 쉬미트후버는 순환신경망에 1000개 이상의 레이어가 포함된 ‘대단히 깊은 딥러닝’ 작업을 해결해 신경망의 복잡성과 능력을 크게 발전시켰다. 또, 2011년에는 GPU를 활용한 병렬 컴퓨팅 환경에서 컨볼루션 신경망의 처리 속도를 극적으로 높여 컴퓨터 비전 대회에서 초인적인 성능을 보여주기도 했다. 2014년에 회사를 설립해 금융, 중공업, 자율 주행 자동차 등 산업 분야에 활용할 수 있는 다목적 AI를 개발하기도 했던 쉬미트후버는 루가노에서 AI와 로봇을 연구하며, 후학을 길러내고 있다.
호흐라이터는 쉬미트후버와 함께 기울기 소실 문제를 식별하고 LSTM을 개발하기도 했지만, 머신러닝, 딥러닝 및 생물정보학에도 크게 기여했다. 클러스트링을 활용해 약물 발견과 독물학에 기여하고, SVM을 확장해 유전자 선택 작업을 하거나 면역 레퍼토리 분류 작업에 홉필드 네트워크를 활용한 것들이 그 예이다. 알렉스 그라브와 또 다른 몇 명의 쉬미트후버의 제자들은 영국의 AI 스타트업이자 후에 알파고를 개발한 딥마인드(DeepMind)에 초창기부터 참여해 딥마인드의 강화학습 연구에 크게 기여했다.
딥러닝과 신경망 연구의 초기 선구자였던 쉬미트후버와 호흐라이트의 연구가 딥러닝 발전에 엄청난 기여를 했고 일부 연구자들에게는 더 중요한 연구로 인정받고 있음에도 불구하고, 힌튼, 르쿤과 벤지오만이 튜링상을 받고 AI 연구계에서 더 많이 알려진 것은 어떤 이유에 기인한 것일까. 쉬미트후버가 단지 북미 지역 출신이 아닌 외국인이기 때문만은 아닐 것이다. 사실 힌튼은 영국계 캐나다인이고, 르쿤은 프랑스계이며, 벤지오도 프랑스계 캐나다인이다. 아마 AI가 미국을 중심으로 발전해 왔고, 그래서 북미 대륙을 제외한 지역에서의 연구에 대해서는 언론에서 크게 다뤄지지 않았기 때문일지도 모르겠다.
어떤 이유에서였건, 그런 부분이 불편했던 쉬미트후버는 2015년 네이쳐(Nature)에서 '딥러닝 음모의 논문 비평'이라는 글을 통해 ‘LBH(르쿤, 벤지오, 힌튼)’를 신랄하게 비판했다. 그 내용은 LBH가 AI 연구에서 서로의 논문은 많이 인용하면서, 오리지널 개척자들에 대해서는 언급하지 않는다는 것이었다.
예를 들어 최초의 다층 신경망 학습 알고리즘의 개발자인 이바크넨코, 역전파의 발명가인 켈리, 드레이퍼스, 린나인마, 워보스, 컨볼루션 신경망의 개척자 후쿠시마와 같은 사람들의 내용을 LBH가 논문에서 언급하지 않는다는 점 등을 지적했다. 또 LBH의 역전파 비지도 학습이 그 이전에 개발된 자신의 연구와 유사한 점이 있음을 명확히 하지 않고 있다는 점 등 10가지 사례를 들며, LBH가 딥러닝에 대한 오랜 통찰과 연구의 전통을 이해하고 존중해야 한다고 주장했다.
2023년에는 '3명의 튜링 수상자가 창작자에게 공로를 인정하지 않은 주요 방법과 아이디어를 재출간한 방법'이라는 제목의 긴 글을 통해 쉬미트후버와 제자들의 연구나 아이디어에 기반한 내용의 논문을 LBH가 발표하며 자신들의 연구를 인용하지 않거나 이름을 바꿔 발표한 사례 17개를 지적했다.
사례들을 보면 생성적 적대 신경망(GAN), 트랜스포머 모델, GRU 그리고 레스넷(ResNet) 등도 자신들의 아이디어에 기반한 것이라 주장하고 있다. 또 글에서 아이디어를 대중화한 LBH의 공로도 인정하지만 그것은 기술을 발명한 공로는 아니라고 하며, LBH는 과학적 진실성에 대한 보편적 원칙에 어긋나는 방식으로 자신들의 연구를 계속해서 폄하해 왔다고 주장했다. 지난해에는 홉필드와 힌튼이 노벨 물리학상을 수상하자, 노벨상이 표절과 허위공로를 장려한다고 비난하는 장문의 글을 공개하기도 했다.
이전에도 쉬미트후버는 르쿤과 신경전을 벌였고, 2017년의 AI 컨퍼런스에서는 벤지오와 논쟁을 벌이기도 했다. 또 AI의 위험성을 공개적으로 경고하는 사람들은 단지 홍보 때문이라 주장하며 기술계와 어긋나는 의견을 제시한 AI 연구계의 도발자이기도 하다.
힌튼이 연구 자금 문제로 미국에 갈 수밖에 없었듯, 유럽의 AI 연구계는 어려움을 겪어오면서도 관심의 대상이 되지 못했던 면이 있다. 그에 반해, 미국의 국가적 지원과 실리콘 밸리의 적극적이고 막대한 자금의 혜택이 직접적으로 뿌려지는 북미 지역의 연구자들은 쉬미트후버의 주장처럼 자신들의 연구 환경에만 빠져 있고 그래서 그들만의 리그가 만들어진 면도 있을지 모른다.
어찌 됐든 쉬미트후버의 불만이 질투에서 비롯되었다고 하더라도, 그가 주장한 AI의 개척자들에 대한 존중과 인정에 대해 더 신경 써야 하는 것은 AI 연구계의 공정에 관한 문제인지도 모른다.
문병성 싸이텍 이사 moonux@gmail.com
- [AI의 역사] 60 AI의 겨울인가 아닌가? – 세기말 전후의 AI 연구
- [AI의 역사] 59 보상과 처벌을 통해 학습하는 강화학습의 발전 과정 - 머신러닝의 분류 (하)
- [AI의 역사] 58 교사가 있는 학습과 정답지가 없는 학습 - 머신러닝의 분류 (상)
- [AI의 역사] 62 또 다른 장벽에 가로 막힌 신경망 연구 -기울기 소실 문제와 과적합 문제
- [AI의 역사] 63 결국 이겼다. 그러나 빨리 날 수 있는 파리일 뿐이다 – IBM의 딥 블루
- [AI의 역사] 64 코끼리는 체스를 두지 않는다 – 다양한 인공지능 게임 프로그램들
