[생초보를 위한 AI진입가이드] 딥러닝과 트랜스포머는 알고가자 < AI기술 < 기사본문

AI(인공지능)는 인공신경망, 뉴런 네트워크라고도 한다. 인간의 뇌신경 조직을 모방해 컴퓨터에 입력하니 사람처럼 생각하는 AI가 나왔다. 차이점은 사람의 뇌는 전류로 정보를 인식, AI는 수치 연산을 통해 결과를 도출한다.

컴퓨터 연산 기능을 가진 인공신경망 '퍼셉트론'은 1950년대 처음 등장했다. 초기 AI 퍼셉트론은 컴퓨터에 '0', '1'을 입력해 연산을 계산하던 방식이었다. 그러던 중 퍼셉트론은 한계에 부딪힌다. XOR 함수그래프를 선으로 나눠 결괏값을 계산 할 수 없다는 것이었다.

1969년 마빈 민스키(Marvin Minsky)는 '퍼셉트론즈(Perceptrons)' 라는 공동논문을 발표했다. XOR함수를 AI에게 학습시키는 것은 불가능하다는 내용이었다. 이 때 인공신경망 관련 학문과 기술은 거대한 한계를 만나 더이상 발전할 수 없는 상황에 빠져 오랜시간 어려운 침체기를 겪게 된다.

그러던 중 한쪽에서는 AI로 XOR 함수 문제를 해결하기 위한 연구를 시작, '멀티레이어'(Multi-layer) 퍼셉트론을 도입해 XOR 함수를 풀었지만 연산량이 너무 많아져 시스템을 돌리기 어렵다는 장벽에 부딫히게 된다.

1986년 20년이라는 오랜 연구기간을 거쳐 제프리 힌턴(Geoffrey Everest Hinton)교수는 역전파(Backpropagation) 알고리즘을 통해 연산량 수가 많아진 문제를 해결하는 방법을 찾아 이를 세상에 알렸다.

역전파 알고리즘은 어떤 결과가 예측됐을 때, 그 예측이 틀렸다면 '퍼셉트론'의 무게(Weight)와 편향(Bias) 값을 조정, 결괏값과 얼마나 다른지 차이를 인식시키면서 문제를 해결하는 방식이다. 이 방식을 결괏값에 근접해질 때까지 반복 훈련시킨다.

쉽게 말해 결과로 나온 출력값에 실제 값과 얼마나 차이나는지 손실값을 알려주며 겹겹의 층(Layer)으로 가중치를 매겨 학습하는 방식인 것이다.

이로써 인공지능 분야는 AI의 한계를 극복해 획기적인 전환점을 맞으며 다시 대중들의 뜨거운 관심을 받게 됐다. 이 때, AI 학습도 '딥러닝'(Deep Learning)으로 발전하기 시작했다.

처음 딥러닝이라는 용어가 사용된 것은 2,000년대 들어서면서 AI 딥러닝학습의 부흥기를 일으킨 힌턴 교수에 의해서였다. 하지만 이 딥러닝 학습에도 단점이 있었다. 인공신경망으로 학습하던 중 '과적합'(overfitting)이 발생한 것이다.

AI가 연산을 넘어 예측을 하는 컴퓨터를 만들기 위해 즉, 원활한 딥 러닝을 하기 위해서는 먼저는 굉장히 많은 양의 데이터가 필요하다. 기본적으로 빅데이터를 입력, 겹겹의 층으로 학습해 있어야 자동 분석하는 AI를 만들 수 있다.

그러나 이처럼 AI에게 많은 양의 학습데이터를 집어넣으면 과적합이 발생하게 된다. 과적합은 AI 기계학습(머신러닝)에서 과하게 학습한 AI의 학습데이터로 인해 관련없는 데이터도 함께 학습해 오히려 실제데이터와 오차가 커지게 된 것을 말한다.

힌턴 교수 밑에서 박사 과정을 밟고 있던 얀 르쿤(Yann LeCun), 요슈아 벤지오(Yoshua Bengio) 등 제자들이 기존 신경망이 과하게 학습해 나타난 과적합 문제를 해결하는 방법을 찾아냈다.

그 과정은 층간 연결을 없앤 형태의 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine)으로 순방향 신경망(Feedforward Neural Network)의 각 층을 효과적으로 사전훈련시키는 것이었다.

이 과정을 통해 과적합을 방지할 수 있는 수준으로 초기화 지점을 잡고 이를 다시 감독된 역전파를 사용해 학습시켰다. 순방향 신경망은 학습시킬 노드간 연결 순환이 형성되지 않은 형태의 신경망을 말한다.

그 결과 과한 학습으로 인해 실제 데이터와 오차가 커졌던 과적합 현상이 발생하지 않고 정답에 근접한 결괏값이 나오도록 훈련할 수 있게 됐다.

AI의 딥 러닝 학습에는 다양한 종류의 인공신경망 알고리즘이 존재한다. 크게 ▲합성곱 신경망(CNN) ▲순환 신경망(RNN) ▲트랜스포머(Transformer) 3가지로 나눠진다.

합성곱 신경망(CNN, Convolutional Neural Network)

CNN은 인간의 시신경을 분석해서 만든 딥러닝 방식이다. 그렇기 때문에 시각적인 이미지 등을 분석하는데 일반적으로 활용한다. 이미지가 AI 시스템에 들어왔을 때 어떤 특징을 뽑아내는 과정이라고 이해하면 쉽다.

여기에 활성화 함수(Activation Function)가 사용된다. 결괏값에 대한 참 또는 거짓을 나타낸 함수그래프를 의미, 함수 그래프를 통해 어디에 더 가까워지고 있는지 구분해갈 수 있다. 사이에 필터링 기법으로 쓰이는 층이 존재하며, 이 층들을 통해 참에 가까운 결괏값이 나오도록 조율, 이미지를 효과적으로 처리한다. 이 층들을 통해 이미지 분류의 정확도를 최대한 높여주는 필터도 자동학습한다.

단, 사람의 직관이나 반복적인 실험으로 AI 알고리즘에게 이용될 필터가 어떤 것인지 알고리즘이 정확하게 결정할 수 있도록 충분한 학습이 필요하다.

순환 신경망(RNN, Recurrent Neural Network)

RNN은 직렬처리로 순서에 맞게 반복되는 학습에 특화된 알고리즘이다. 기존의 RNN 계열의 신경망은 순차적으로 과거와 현재의 학습을 연결하고 시간에 흐름에 맞게 학습한다. 왼쪽에서 오른쪽 혹은 오른쪽에서 왼쪽으로 정해진 방향대로 언어를 순차적으로 반복해 처리한다.

단, 한 단어씩 읽으면서 여러 단계를 순차적으로 처리하기 때문에 앞에 나오는 단어랑 뒤에 나오는 단어가 멀리 떨어져 있을시 오역이 발생할 수 있다. 그렇기 때문에 순차 처리가 아닌 병렬 처리에 맞는 최신 고속 컴퓨팅 장치에는 활용되기 어렵다. 순차적이기 때문에 입력된 단어들끼리 거리가 먼 부분의 정보를 결합하는데 많은 단계와 시간이 필요하기 때문이다.

과거에는 순차적으로 일을 처리하기 때문에 길이가 있는 인코더, 디코더, 번역 등 자연어처리 방식에 유용하게 쓰였다. 그러나 긴문장 번역시 오역이 많아지며 어려워한다는 한계와 어려운 단어나 문장이 나올시 생략하거나 반복 번역한다는 단점이 발생했다.

트랜스포머(Transformer)

트랜스포머는 '어텐션'(Attention), 정확히는 '셀프 에텐션'(Self-Attention)이라 불리는 방식을 사용한다.

트랜스포머의 어텐션은 병렬처리가 어려워 연산속도가 느리던 RNN의 한계를 극복하기 위해 만들었다. 주어진 단어 번역을 위해 문장의 다른 모든 단어와 비교해 번역한다. 트랜스포머는 데이터를 RNN처럼 순차적으로 처리할 필요가 없다. 또 RNN보다 훨씬 더 많은 병렬화를 허용하기 때문에 이 같은 처리 방식이 가능하다.

문장 전체를 병렬구조로 번역해 멀리 있는 단어까지도 연관성을 만들어 유사성을 높인 트랜스포머는 RNN을 완벽 보완해 AI 딥러닝 학습시 언어 이해 능력을 높였다.

현재 이미지나 언어 번역 기능으로 폭넓게 쓰이며 거의 모든 시장을 점유하고 있다. 깃허브(GitHub) GPT-3, 버트(BERT, Bidirectional Encoder Representations from Transformers) 등에서 가장 관심을 많이 받고 있는 딥 러닝 종류로 알려져있다.

[관련유튜브] 트랜스포머 (어텐션 이즈 올 유 니드)

본 기사는 지난 5일 본지 기자들 대상 인공지능 스타트업 '누아'의 서덕진 대표 특강 내용을 기초로 작성됐다.

[관련기사] '심박수' 측정까지 가능... 날로 진화하는 AI 스피커

AI타임스 이하나 기자 22hnxa@aitimes.com