(사진=셔터스톡)
(사진=셔터스톡)

1990년대에는 얀 르쿤이 컨볼루션 신경망을 이용해 우편 분류와 수표 인식에 인공지능(AI)을 실제 사용했고, 가장 활용도가 높은 순환 신경망인 LSTM이 슈미트후버에 의해 개발되고 제안됐다. 수많은 은닉층의 오류가 누적돼 신경망을 정확히 훈련하기 어렵다는 문제는 워보스, 럼멜하트, 힌튼 등의 오류 역전파 알고리즘으로 문제가 해결됐고, 심층 신경망의 훈련을 어렵게 하는 기울기 소실 문제도 호흐라이터에 의해 식별됐다. 

그런데도 1990년대와 2000년대의 AI 연구와 활용의 대세는 서포트 벡터 머신, 랜덤 포레스트와 같은 통계 기반의 머신 러닝이었고, 여전히 신경망은 그다지 주목받지 못했다. 1990년대에 딥러닝을 위한 토대가 다 마련됐는데도 주목받지 못하다가, 2010년대가 되어서야 신경망의 딥러닝이 주목받고 붐을 이룬 이유는 무엇이었을까. 

다양한 이유가 있겠지만 크게 세가지를 들 수 있다. 문제 해결과 학습 모델 개발을 위한 알고리즘의 발전, 학습에 필요한 충분한 데이터의 확보 그리고 GPU 활용을 포함한 하드웨어의 획기적인 발전이다.

학습 과정에서 오류가 누적될 수밖에 없고 그래서 다층 신경망이 학습 자체를 할 수 없을 것이라는 주장은 1986년 럼멜하트와 힌튼의 오류 역전파 알고리즘으로 해결됐다. 역전파 모델이 개발되며 1980대 말에는 얀 르쿤의 손글씨 인식 프로그램이 현실에서 사용돼 심층 신경망의 확장 가능성이 보이기도 했다. 

또 다트머스 대학 교수였던 사이벤코(George Cybenko)는 1989년에 발표한 논문에서 ‘범용 근사화 정리(Universal Approximation Theorem)’를 발표했다. 이는 충분한 뉴런을 가진 하나의 은닉층이 있는 신경망은 활성 함수가 특정 조건을 만족시키는 경우, 모든 연속 함수를 합리적인 정확도로 근사할 수 있다는 것으로 신경망의 성능을 수학적 논리로 정당화한 것이다. 이를 바탕으로 연구가 확대 발전했고, 수많은 모델 개발의 원동력이 되며 신경망 연구 부흥의 계기가 됐다.

그러나 현실은 녹록치 않아, 이런 발전에도 불구하고 다시 심층 신경망의 한계를 보여주는 현상들이 나타나기 시작했다. 좀 더 복잡한 문제를 다루기 위해 신경망의 층이 깊어질수록 오히려 학습이 잘되지 않거나, 훈련 데이터에서는 정확해도 새로운 데이터에 대해서는 정확성이 떨어지는 문제가 발생했다. 그것은 기울기 소실과 폭주 문제 그리고 과적합 문제 때문이었다.

기울기 소실과 폭주 문제는 1991년 호흐라이터가 문제를 식별해 내며 다양한 해결책들이 나타났다. 호흐라니터와 슈미트후버가 1997년에 발표한 LSTM, 벤지오와 그의 제자 글로롯(Xavier Glorot)이 2011년에 제안한 렐루(ReLU) 함수의 적용, 2015년에 제안된 각 층에 들어가는 입력을 평균과 분산으로 정규화하는 배치 정규화(Batch Normalization) 등이다. 

또 2010년의 자비에 초기화(Xavier Initialization)를 포함한 다수의 가중치 초기화 기법들과 기울기 값을 자르는 그래디언트 클리핑(Gradient Clipping)도 기울기 소실과 폭주 문제를 해결하기 위해 제안된 알고리즘이다. 은닉층의 뉴런 입력이 몇개의 뉴런을 건너뛰어 들어가게 하는 2015년의 레스넷도 효과적인 기울기 소실 문제 해결 방법으로 알려져 있다. 

과적합 문제도 꽤 오랫동안 연구자들을 괴롭혔지만, 의외로 간단한 해결책들이 나왔다. 훈련 데이터의 양을 늘리거나 훈련 성능에 영향을 주지 않는 범위 내에서 특성의 수와 모델의 복잡도를 줄이는 것이었다. 가장 간단하면서도 큰 효과를 본 해결책은 2014년에 힌튼이 제안한 드롭 아웃(Drop out) 알고리즘이었다.

이렇게 2010년대 전후로 심층 신경망의 한계를 해결할 다양한 문제 해결 알고리즘이 등장하고, 2006년에는 DBN, 2014년에는 GRU 등 새로운 학습 기법의 알고리즘이 개발됐다. 또 토치(torch)나 테아노(Theano) 같은 딥러닝 모델 라이브러리인 프레임워크들이 2000년대부터 공개됐는데, 2010년대에는 카페, 텐서플로, 케라스같이 일반인도 쉽게 적용할 수 있는 프레임워크도 나왔다. 

2010년대 초중반에는 이미지 인식대회를 통해 개발된 획기적인 성능의 딥러닝 모델들이 공개됐는데, 딥러닝 프레임워크와 모델들은 뒤에서 좀 더 자세히 알아본다. 이렇게 오랜 문제들이 해결되고, 새로운 학습 기법들이 개발되자 누구나 쉽게 접근할 수 있는 라이브러리와 새로운 모델들이 공개됐다. 이런 알고리즘의 발전이 2010년대를 딥러닝의 중흥기로 만들어온 첫번째 배경이었다.

(사진=셔터스톡)
(사진=셔터스톡)

“데이터는 인공지능의 연료다(Data is the fuel for AI)”라는 말을 심심치 않게 들을 수 있다. 이 말은 고객관리용 데이터과학 회사를 설립하고 코스트코의 멤버십 카드 출시를 도왔던 영국의 수학자 험비(Clive Humby)가 2006년에 했던 말 “Data is the new oil”에서 나왔다. 

험비가 ‘Oil’이라고 한 것은 데이터는 가치 있지만 정제하지 않으면 실제 사용할 수 없고, 그래서 가치를 갖기 위해 세분되고 분석돼야 한다는 의미였다. 비슷한 의미로 사용되기도 하지만, AI에서는 더 많은 양질의 데이터가 필요하고 데이터의 양이 많을수록 AI의 성능도 더 뛰어나게 되고 더 가치 있는 결과를 만들 수 있다는 의미로 사용된다. AI, 특히 딥러닝은 많은 데이터가 필요하고, AI와 빅데이터의 조합은 알고리즘만으로 해결할 수 없는 문제들을 해결해 주기도 했다.     

2010년대 이전에도 데이터가 없었던 것은 아니다. 이미 ‘라지 데이터(Large Data)’나 ‘정보 과부하(information Overload)’ 등에 이어 1990년대 초반부터 ‘데이터 웨어하우스(Data Warehouse)’라는 용어가 사용되는 등 IT 업계에서는 데이터베이스를 이용해 대량의 데이터를 처리하고 분석해 왔다. 

그러나 당시에는 데이터들이 대부분 개별적으로 수집되고 활용되다가, 2000년대 중반에 들어서며 데이터 통합 관리를 통해 입체적으로 이해하려는 노력을 기울이기 시작했다. 또 2007년에는 아이폰, 2009년에는 삼성전자의 갤럭시 폰 등 스마트폰이 본격적으로 보급되기 시작했다. 이를 기반으로 2010년대에는 모바일과 소셜 미디어의 광범위한 보급과 사용, 그리고 클라우드 컴퓨팅과 데이터 마켓의 출현이 이뤄지며 이종 데이터 간의 결합이 일어나는 빅데이터 시대로 진입했다. 

디지털 데이터의 양을 추정하고 예측하는 최초의 연구는 2007년 IDC에 의해 이뤄졌다. 보고서에서는 2010년까지 18개월마다 두배씩 증가해 약 1제타바이트가 될 것이라고 예상했지만, 실제로는 2제타바이트까지 증가했다. 2015년에는 15.5제타바이트, 2020년에는 50제타바이트로 데이터가 기하급수적으로 증가했다. 

특히 인터넷의 발전에 따라 지식 검색, 웹, 블로그 등 과거에는 볼 수 없었던 개인 데이터가 급격히 증가했다. 스마트폰, 태블릿으로 대변되는 모바일 기기의 확산으로 소셜 미디어가 급격히 성장하며 기존 인터넷에서 특별히 데이터를 생성하지 않던 개인마저도 일상에서 다양한 형태의 데이터와 정보들을 생산하기 시작했다. 

또 개인의 의도와 상관없이 모바일 기기에 탑재된 수많은 센서들이 위치, 궤적, 호불호 등 다양한 비정형 데이터들을 생산해 내고, 이것이 데이터양을 급격하게 증가시키는 요인이 됐다. 이전부터 경영에 도움을 얻고자 데이터를 수집, 축적한 기업 역시 정보화 시스템 도입과 사물인터넷 적용으로 이전과는 다른 형태의 데이터를 상상할 수 없을 정도로 많이 생산했다.

이렇게 대량으로 쏟아져 나오는 데이터들은 그 자체로 또는 가공된 형태로 종합되고 분석돼 AI 학습에 이용될 수 있었다. 특히 1990년대 중반에는 디지털 카메라가 일반인들에게 보급됐고, 2000년에는 휴대폰에 카메라가 장착되기 시작했다. 2007년에 애플이 아이폰을 출시하면서 AI의 오랜 숙제였던 패턴 인식 학습에 필요한 디지털 이미지는 더 이상 귀한 자원이 아니게 됐다. 

또 인터넷의 성장은 구글 검색에서 이미지를 수집하거나 위키피디아에서 텍스트를 읽어 오는 등의 방법으로 딥러닝 모델의 학습을 위한 데이터 세트를 구축하고 배포하는 것이 훨씬 쉽게 만들어 줬다. 이 가운데 2007년부터 구축된 지도 학습을 위한 레이블이 제공된 이미지 데이터베이스 이미지넷(ImageNet)과 이를 이용해 2010년부터 개최된 이미지 인식 대회는 AI의 또 다른 극적인 변화와 발전의 계기를 마련해 줬다. 

이렇게 인터넷의 발전과 학습에 필요한 충분한 데이터의 확보는 2010년대 딥러닝 활성화의 두번째 배경 요인이 됐다.

문병성 싸이텍 이사 moonux@gmail.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지