이언 굿펠로우 (사진=deeplearning.ai)
이언 굿펠로우 (사진=deeplearning.ai)

2017년 10월 'GTC' 유럽 행사의 키노트 연설을 하던 젠슨 황 엔비디아 CEO는 무대에서 내려와 터치펜으로 사람 얼굴과 엔비디아의 로고를 그렸다. 스케치가 실시간으로 피카소풍의 그림으로 바뀌자, 청중의 박수가 터져 나왔다. 이는 캠브리지 컨설턴트사가 엔비디아의 딥러닝 전용 슈퍼컴퓨터로 만든 ‘빈센트 AI(Vincent AI)’를 활용한 것이다. 사용자가 간단한 그림을 그리면, 이를 기본으로 유화, 피카소풍 그림, 팝 아트 등 7가지의 예술 작품으로 완성해 주는 프로그램이었다. 이미지와 동영상 생성 AI가 넘쳐나는 최근 기준으로는 너무 단순해 보이지만, 당시에는 충격적인 기술이었다. 

또 이 무대에서는 당시에는 존재하지 않는 사물이나 사람의 얼굴을 실제처럼 만들어 주거나, 다른 사람의 얼굴과 목소리를 생성해 동영상을 만들어 내는 딥페이크 기술이 처음 시연됐다. 이처럼 실제 같은 가짜를 만들어 내는 기술에는 새로운 딥러닝 알고리즘이 활용됐다는 공통점이 있다. ‘생성적 대립 신경망’이라고 불리는 GAN(Generative Adversarial Networks) 기술로, 이는 몬트리올대학교의 이언 굿펠로우가 개발해 2014년에 공개했다. 딥러닝의 대가 3명 중 하나인 얀 르쿤은 GAN에 대해 “지난 10년간의 머신러닝 기술 중 가장 흥미로운 아이디어”라고 말했다.

이언 굿펠로우(Ian Goodfellow)는 스탠포드대학교에서 앤드류 응 교수 지도로 학사와 석사 과정을 마치고, 몬트리올대에서 요수하 벤지오에게 박사과정 지도를 받으며 딥러닝과 컴퓨터 비전을 연구했다. 2013년 후반, 그는 얀 르쿤에게 박사학위 논문 심사를 요청했는데, 그 무렵 얀 르쿤이 페이스북 AI 연구소장직을 맡아 개설 준비에 바빠서 논문 심사는 지연되고 있었다. 그렇지만 그때는 구글과 페이스북이 본격적으로 AI 인재 영입 전쟁이 돌입한 시기였기 때문에 굿펠로우도 두곳 모두의 스카우트 제안을 받고 있었다. 그러나 그는 박사학위를 받을 때까지 취업을 보류하기로 하고, 진행 중이던 딥러닝 교재 집필을 완료하기로 했다.

어느 날 딥마인드에 취직한 연구실 동료의 송별회를 하던 날, 바에서의 송별회는 존재하지 않는 실사 이미지를 생성하는 방식에 관한 토론으로 달아올랐다. 당시 연구실 동료들은 신경망으로 이미지를 만들고 이를 통계학적으로 분석해 실사와 가까운 이미지로 수정해 나가는 방식을 언급했는데, 약간의 취기가 오른 상태에서 굿펠로우는 새로운 방식을 제안했다. 그것은 다른 신경망으로부터 학습할 줄 아는 신경망을 구축해, 두 신경망의 대결을 충분히 길게 하면 실사 이미지를 얻어낼 수 있다는 것이었다.

당시에는 신경망 하나를 훈련하는 것도 쉽지 않은 상황이었기에, 동료들은 다른 신경망 알고리즘 내에서 신경망을 학습한다는 것은 거의 불가능하다며 굿펠로우의 의견에 반박했다. 그날 밤 굿펠로우는 취기가 가시지 않은 상태에서 자신의 주장을 입증하기 위해 자신의 양방향 신경망을 구축했고, 섬네일 크기의 사진이지만 결국 프로그램이 자신의 계획대로 작동한다는 것을 확인했다. 그것이 GAN의 프로토타입이었고, 연구를 계속 이어나가 2014년 6월 논문으로 공개했다.

졸업 후 그는 구글 브레인에서 신경망 연구를 이어 갔는데, 특히 신경망이 가질 수 있는 취약점에 대해 연구했다. 박사과정 중에 컴퓨터 비전에서 노이즈 대조 추정을 연구했던 경험을 바탕으로, 노이즈에 의해 이미지 인식에 오류가 발생할 수 있는 신경망의 한계를 입증한 것이다. 이는 이미지에 단순한 노이즈 신호를 포함할 경우, 신경망이 이미지를 완전히 다르게 인식해 다른 사물로 인식하거나 실제 사물에 약간의 변형이 생겼을 때 신경망이 이미지 자체를 인식하지 못하는 등의 상황에 관한 것이었다. 

그는 논문을 통해 사람의 눈에는 판다로 보이는 이미지에 작은 노이즈를 포함하면, 신경망이 긴팔원숭이로 인식하는 연구 결과를 공개했다. 다른 연구자들에 의해 눈에 잘 안 보이는 패턴이 추가된 정지신호가 다른 교통표지판으로 인식하는 사례 등 신경망의 다양한 오인식 사례가 발견됐다. 이는 추론 과정이 블랙박스인 딥러닝이 가질 수 있는 한계를 처음 체계적으로 드러낸 사례였고, AI 보안, 자율주행차 안전, 의료 AI 등에서의 신뢰성을 재고하는 계기가 됐다.

그의 AI 안전성에 관한 연구는 오픈AI의 초기 사명과도 맞아떨어져 오픈AI에 합류하기도 했으나, 1년이 채 안 돼 사직하고 구글로 돌아왔다. 2019년에는 애플로 이직했는데, 2022년 애플의 재택근무 해제와 사무실 복귀 정책이 실시되자, 이에 반발해 퇴사하고 다시 구글 딥마인드에 합류했다. 그가 떠난 후 애플은 코로나 재확산 조짐이 보이자, 사무실 복귀 정책을 연기했다. 

굿펠로우가 개발한 GAN은 이후 많은 연구진에 의해 학습의 안정성이 높아져 비약적인 발전을 했는데, 용도와 목적에 따라 개선되고 변형된 여러 GAN 알고리즘이 등장했다. 예술, 패션, 과학 분야 등에서 다양한 분야에서 활용되기도 했지만, 딥페이크라는 부정적인 현상도 나타났다. GAN의 발전에 관해서는 나중에 딥페이크와 함께 좀더 자세히 알아본다.

GAN의 발전 (사진=wikidocs)
GAN의 발전 (사진=wikidocs)

굿펠로우는 논문에서 위조지폐범과 경찰을 예로 들어 GAN의 동작 원리를 설명했다. 경찰은 위조지폐를 진짜와 비교해 감별해 낸다. 위조지폐범은 경찰을 속이기 위해 위조지폐를 더욱 정교하게 만들고, 경찰도 더 노력해 위조지폐를 감별한다. 이처럼 위조지폐범과 경찰의 노력이 반복되다 보면 위조지폐범의 위조 능력과 경찰의 감별 능력 모두 발전하게 되고, 결과적으로 진짜와 구분하기 어려운 단계에 이르게 된다는 것이다. 

GAN는 일반적으로 ‘생성자(Generator)’와 ‘판별자(Discriminator)’라는 두가지의 하위 신경망으로 구성되는데, 생성자는 위조지폐범에 해당하고, 판별자는 경찰에 해당한다. 이렇게 두 신경망이 서로 대립하고 학습해 나가면서 차이점을 수정해 나가는 과정을 거쳐 궁극의 균형점, 즉 진짜 같은 가짜를 생성할 수 있도록 하는 AI 기법이 GAN이다. 

GAN 설명도 (사진=Epoch)

GAN의 동작 원리를 좀 더 자세히 들여다보면, 먼저 생성자인 신경망이 무작위 노이즈 데이터를 토대로 훈련 목표 데이터에 가까운 확률 분포를 가지는 데이터를 생성한다. 판별자인 신경망은 생성자가 만든 데이터를 실제 데이터의 확률 분포와 얼마나 다른지 판단하고 평가한다. 이 평가 결과를 기준으로 생성자는 생성 데이터를 다시 수정하고, 수정된 데이터를 판별자가 다시 평가하는 과정을 반복해 나간다. 

초기에 노이즈 데이터로부터 생성된 이미지는 실제 이미지에 비해 터무니없는 데이터일 수 있다. 그런데 평가와 수정을 반복해 나가는 과정을 통해 생성자는 실제 데이터와의 확률 분포를 줄여 나가서, 궁극적으로는 실제 데이터와 구분할 수 없는 진짜 같은 가짜 데이터를 만들어 낼 수 있게 된다. 그래서 GAN을 주어진 데이터의 확률 분포를 예측하는 모델이라고도 한다. 

GAN는 ‘생성적 대립 신경망’ ‘생성적 적대 신경망’ ‘적대적 생성 신경망’ 등으로 다양하게 번역되는데, 그 이름에서 이미 개념을 이해할 수 있다. 생성적(Generative)이라는 부분을 통해 무엇인가를 새로 만들어 낸다는 것을 알 수 있고, 대립적 또는 적대적(Adversarial)이라는 부분을 통해 경쟁한다는 것을 알 수 있다. 대립하기 위해서는 상대방이 있어야 하기에, 신경망도 하나의 네트워크가 아닌 두개의 즉 복수형의 네트워크(Networks)라는 단어가 사용됐다.

그래서 복수형의 ‘GANs’로 사용되는 것이 타당하지만, 일반적으로 단수형의 GAN으로 많이 사용된다. 한마디로 GAN은 대립 쌍을 이루는 두개의 신경망이 상호 대립 과정에서 훈련 목표를 자동으로 생성하도록 학습시키는 AI의 학습 모델이다.  

GAN이 생성 AI의 선구자이기는 하지만, 생성 AI라고 부르는 최근의 챗GPT, 제미나이, 미드저니 같은 대형언어모델(LLM)이나 비전언어모델(VLM), 멀티모달모델들은 트랜스포머(Transformer) 기반의 알고리즘을 사용하고, GAN을 사용하지는 않는다. GAN이 개발되고 발전한 2010년대 후반까지, 이미지의 합성과 변형, 스타일 전환 같은 작업에서 GAN은 사실상 지배적인 핵심 생성 AI였고, 딥페이크 같은 응용도 GAN에서 출발했다. 

그러나 최근 주류 생성 AI에서는 GAN이 거의 쓰이지 않는데, 트랜스포머가 사용되는 텍스트 생성 AI는 제외하더라도 이미지 생성 AI에는 디퓨전(Diffusion) 모델이 그리고 동영상 생성 AI에는 디퓨전이나 트랜스포머 기반의 알고리즘들이 사용되고 있다. GAN은 불안정한 학습 문제로 어려움을 갖고 있었는데, 2010년대 말에 개발된 디퓨전 모델이 해상도와 품질면에서 더 뛰어난 면을 보여줬을 뿐 아니라 학습 안정성에서도 더 좋은 결과를 보여 줬기 때문이다. 

다만, GAN이 완전히 사라진 것은 아니다. 여전히 데이터 증강, 이미지 변환, 특정 이미지의 생성과 고해상도 업스케일링 등 일부 연구나 응용에서는 사용되고 있는데, 예를 들어 스타일GAN(StyleGAN) 시리즈는 여전히 얼굴 합성, 아바타, 3D 생성 같은 분야에서 표준으로 통한다. 

문병성 싸이텍 이사 moonux@gmail.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지