이미지넷의 데이터를 활용하고 인공지능(AI) 개발자들의 프로그램을 세상에 소개하기 위한 페이페이 리와 동료들의 노력인 세계 최초의 대규모 이미지 인식 경연 대회 ‘ILSVRC(ImageNet Large Scale Visual Recognition Challenge)’는 2010년부터 개최됐다. 대회에는 누구나 참가할 수 있지만, AI 프로그램이 인식해야 하는 데이터는 이미지넷의 이미지 데이터를 사용해야 했다.
참가자들은 먼저 프로그램을 제출하고, 주최 측이 1000개 항목의 이미지 15만장을 제공한다. 프로그램은 이 이미지에 포함된 대표적인 사물을 인식하고 분류하는 등의 주어진 임무를 수행해 인식률 결과가 높은 프로그램이 우승하는 방식이었다.
임무는 매년 조금씩 변경됐는데, 첫해인 2010년에는 각 이미지에서 발견된 대표적인 5개의 사물에 대한 항목을 분류하고 목록을 생성하는 ‘분류(Classification)’만 시행했다. 2011년에는 분류와 함께 이미지 속 대표 사물들의 위치를 모형화하는 ‘위치 참조 분류(Classification with localization)’가 추가됐다.
또 2012년에는 분류, 위치 참조 분류와 함께 각 이미지 속에서 다시 지정된 이미지가 어떤 항목에 속하는지 찾아내는 ‘세분화 분류(Fine-grained classification)’가 더해졌다. 2013년부터는 위치 참조 분류와 각 이미지에서 나타난 여러 작은 사물들에 대해 항목과 사각형으로 표시되는 위치 그리고 그렇게 분류한 신뢰도까지 포함한 정보를 생성하는 ‘검출(Detection)’이 임무로 제시됐고, 2015년부터는 동영상에 대한 분류와 인식도 포함됐다. 이렇게 대회는 기술의 발전에 따라 이미지 인식 방법에 새로운 임무를 추가해 왔다.
첫번째 대회인 2010년에는 11개 팀이 참가했는데, 페이페이 리가 잠시 교수 생활을 했던 일리노이대학교와 NEC의 연합팀이 오류율 28.1%로 1위를 차지했다. 2, 3위는 프랑스 IT 기업 기술팀인 XRCE와 싱가포르의 난양공과대학교로 각각 33.6%와 44.6%의 오류율을 기록했다.
2011년에는 XRCE가 25.7%의 오류율로 1위를 차지하고, 암스테르담대학교와 도쿄대학교의 ISI 랩 팀이 31%와 34%의 오류율로 2, 3위를 차지했다. 2012년의 세번째 대회는 분류 임무에서 토론토대학교의 슈퍼비전 팀이 1, 2위, 도쿄대의 ISI 팀이 3위를, 위치 참조 분류 임무에서 슈퍼비전 팀이 1, 2위, 옥스포드대학교 팀이 3위를, 세분화 분류 임무에서 도쿄대의 ISI 팀이 1~3위를 차지했다. 사실 2012년의 대회는 다음해에도 대회가 계속 이어질 수 있을지 불확실한 상황에서 진행되었다. 그것은 매회 참가자 수가 줄어 들어, 첫해였던 2010년에 35개 팀이 참가한 후, 2011년에는 15개 팀으로 줄었고, 2012년에는 겨우 7개 팀만이 참가했기 때문이었다
그런데, 우려와는 달리 2012년 대회의 결과는 컴퓨터 비전, 인지 과학, 머신러닝 및 신경망 분야의 AI 연구계를 큰 충격에 빠트리는 큰 사건됐다. 그 충격은 크게 두 부분에서 기인했는데, 첫번째는 인식률의 향상이었다. 분류 임무에서 1, 2위를 차지한 슈퍼비전 팀의 오류율은 15.3%와 16.4%였다.
이는 이미지의 사물을 검출하고 무엇인지 규정했을 때 100개중 16개에 대해서는 틀린 답을 내놓는 것이며, 인간의 인식 오류율이 5.1%정도라고 하니 그다지 대단해 보이지 않을 수 있다. 그런데, 이 결과는 이전해 1위 팀의 오류율 26% 대비 10% 이상 개선된 결과였고, 그 해 3위 팀의 오류율에 비해서도 10% 가까이 우월한 성능을 보여준 것이다.
그동안 머신러닝을 통한 이미지 인식 연구 분야는 연구자들의 탁월한 지혜와 치열한 연구 노력을 바탕으로 다양한 특징 추출 및 알고리즘 개선을 통해 인식률을 1년에 1% 정도 개선하더라도 큰 성과로 간주됐다. 그런데 2012년 처음 참가한 슈퍼비전 팀이 일거에 10%를 개선, 오랜 세월 이미지 인식 연구를 해 온 다른 연구자들을 충격에 빠트려버렸다. 사실 이미지 인식대회를 주최한 페이페이 리 역시 처음 슈퍼비전의 인식 결과를 봤을 때 오류라고 생각했고, 여러 방법으로 결과를 다시 확인하고서야 결과를 받아들였다고 한다.
두번째 충격은 슈퍼비전 팀이 이미지 인식에 사용한 알고리즘이었다. 이전까지 그리고 그해에 참가한 거의 모든 팀은 서포트 벡터 머신, k-KNN, FV(Fisher Vector), SIFT(Scale Invariant Feature Transform) 등의 전통적인 머신러닝 기반의 이미지 인식 알고리즘을 활용해 이미지를 인식하고 분류했다.
그런데 슈퍼비전 팀이 사용한 알고리즘은 딥러닝의 한 종류인 컨볼루션 신경망이었다. 사실 슈퍼비전 팀은 제프리 힌튼 토론토대 교수와 그의 제자 알렉스 크리체브스키(Alex Krizhevsky), 일리야 수츠케버(Ilya Sutskever) 등 3인으로 구성된 팀이었다. 이들은 그동안 대회에서 거의 사용되지 않았던 신경망의 딥러닝으로 압도적인 인식률 능력 차로 우승, 딥러닝과 컨볼루션 신경망은 다시 한번 학계와 산업계에 중요 화두로 떠올랐고 AI 붐을 유발했다.
이후 이미지 인식 대회에는 대부분 참가 팀이 딥러닝을 활용한 알고리즘으로 참가하게 됐으며, 인식률도 이전 대회와는 비교되지 않을 정도로 크게 향상됐다. 슈퍼비전 팀의 등장 이전까지 최고의 성능이라 하더라도 30% 가까웠던 인식 오류율은 2013년 대회에서 1~3위 팀들이 모두 컨볼루션 신경망을 채택해 11.2%, 12%, 13%라는 획기적인 개선 결과를 보여줬다. 2014년에는 구글 팀이 오류율 6.7%로 우승을 차지했고, 2015년 대회에서 마이크로소프트 베이징 연구소팀이 오류율 3.57%로 이전에는 감히 넘볼 수 없었던 인간의 오류율 5%를 처음으로 넘어서는 초인적인 성능을 보여줬다.
이전까지 신경망은 음성 인식이나 자연어 처리 분야에서 어느 정도 성과를 보여줬지만, 신경망에 의한 이미지 인식에 대한 성능에 대해서는 회의적이고 부정적인 의견이 주류를 이루고 있었다. 힌튼은 딥러닝의 성능 논쟁에 종지부를 찍는 방안으로 이미지 인식에서 확실히 다른 성능을 보여주고자 했다. 그래서 그는 제자들인 수츠케버와 크리체브스키가 한 팀을 이루도록 해 이미지 인식을 위한 딥러닝 알고리즘을 개발하도록 했다. 뛰어난 통찰력에 야심도 많은 아이디어맨 수츠케버와 과묵하고 내성적인 성격으로 전형적인 은둔형 개발자인 크리체브스키는 훌륭한 팀이 되어 이미지 인식 성능을 개선해 나가는 딥러닝 알고리즘을 개발했다.
최근 상황을 보면 그들의 성격이 어느 정도 드러나는 단면을 볼 수 있다.
언젠가 AI가 인간을 능가할 것이라 믿으며, 인공일반지능, AGI의 구축을 목표로 연구를 해온 수츠케버는 2015년, 오픈 AI의 공동 창립자로 참여했다. 지난해에는 오픈 AI의 공동 대표인 샘 알트만을 사임시키는 이사회 측의 입장을 대표하다가 결국 퇴사를 하며 벤처를 설립했다. 신경망은 전혀 지능적인 것은 아니며 단지 컴퓨터 과학의 한 결과물이라고 생각하던 크리체브스키는 지능을 구현한다는 측면에는 의미를 두지 않았다. 자신이 개발한 기술은 오래전부터 존재했고, 단지 최적의 시기를 잘 만났을 뿐이라고 생각했던 그는 알렉스넷의 성능에 대해서는 놀라워했지만, 연구계와 사람들의 열광에 대해서는 오히려 덤덤해 했다. 구글의 자율주행 자동차 프로젝트에 참여하기도 했던 크리체브스키는, 구글에서의 업무에 흥미를 잃고 2017년 벤처 기업으로 이직을 한 이후, 현재까지 어떤 일을 하고 있는지 잘 알려져 있지 않다.
원래 슈퍼비전이라 불렸던 알고리즘을 힌튼과 수츠케버는 크리체브스키의 이름을 따서 ‘알렉스넷(AlexNet)’으로 바꾸기로 했다. 그것은 새로 구매한 2개의 GPU 카드가 크리체브스키의 침실에 있던 PC에서 장착되어 이미지 인식을 훈련했을 뿐만 아니라, 크리체브스키가 기존의 신경망을 GPU의 쿠다(CUDA)에서 실행할 수 있도록 개조 설계를 했기 때문이었다.
기본적으로 알렉스넷은 후쿠시마의 네오코그니트론을 변형하고 역전파를 적용해 얀 르쿤이 몇 년 전에 구축한 ‘르넷-5’를 기반으로 설계하고 개선한 알고리즘이었다. 성능을 높이기 위해서는 은닉층을 깊게 만들어야 했는데, 이는 컴퓨팅 비용의 부담을 가져왔기에, 그들은 CPU가 아닌 GPU 기반으로 설계하면서 비교적 저비용으로 구현할 수 있었다. 또 그들은 알렉스넷을 누구나 사용하고 수정할 수 있도록 오프소스로 프로그램 코드를 일반에 공개했는데, 그들의 성공과 코드 공개는 컨볼루션 신경망의 르네상스를 가져오는데 큰 몫을 했다.
슈퍼비전팀은 알렉스넷의 지속적인 연구를 위해 그해에 DNN리서치라는 스타트업을 설립했는데, 이듬해에 구글에 인수됐다. DNN리서치 설립과 인수 과정, 그리고 이로 발생한 글로벌 IT 기업의 딥러닝 벤처 기업 인수 열풍에 대해서는 나중에 좀 더 자세히 이야기한다.
문병성 싸이텍 이사 moonux@gmail.com
- [AI의 역사] 77 세상의 모든 이미지를 모으고 분류한다 – 이미지넷과 메커니컬 터크
- [AI의 역사] 76 새로운 컴퓨터 군주를 환영합니다! – 퀴즈 쇼 제퍼디와 왓슨
- [AI의 역사] 75 그림을 그리려다 생각을 해버린 GPU와 하드웨어 - 딥러닝의 발전 배경 (하)
- [AI의 역사] 79 가르침 없이 스스로 고양이를 찾아낸 인공 신경망 – 브레인 프로젝트의 시작과 제프 딘
- [AI의 역사] 80 검색엔진 회사가 AI 회사가 되기까지 – 앤드류 응과 브레인 프로젝트의 발전
- [AI의 역사] 81 바이두의 제안과 경매를 통한 스타트업 인수 - 애퀴하이어 전쟁의 서막
