(사진=엔비디아).
(사진=엔비디아).

엔비디아(NVIDIA)가 매우 적은 데이터만으로도 인공지능(AI)을 훈련시킬 수 있는 방법을 찾았다. 이 같은 새로운 훈련법은 향후 예술창작이나 헬스케어 등 다양한 분야에서 새로운 가능성을 열어 AI의 응용 영역을 더욱 확장하는 계기가 될 전망이다.

엔비디아가 제한된 데이터세트를 활용해 생성적 적대 신경망(GAN) 등의 AI 모델을 훈련하기 위한 새로운 접근법을 개발했다고 IT 전문매체 엔가젯(Engadget) 등 외신이 전했다. GAN은 두 개의 인공신경망, 즉 생성기(generator)와 판별기(discriminator)가 상호 경쟁하는 동시에 서로를 훈련시키면서 실제와 가까운 이미지‧영상‧음성 등을 자동으로 만들어내는 AI 기계학습 방법론의 하나다.

생성기 알고리즘이 새로운 이미지를 만들어내려고 할 때, 판별기는 수천 개의 샘플 이미지를 검사하고 그 데이터를 사용해 생성기에게 코치한다. 일관되고 신뢰할만한 결과물을 도출하기 위해 기존 GAN 모델의 경우 보통 5만~10만 개의 훈련 이미지가 필요하다. 이미지가 너무 적으면 과적합(overfitting) 문제가 생기기 때문이다.

과적합이란 기계학습에서 데이터의 양이 특정 모델에 대해서만 많이 학습돼서 학습되지 않은 데이터에 대해서는 분석 정확도가 현저히 떨어지는 현상을 말한다. 즉 학습 대상 데이터에 대한 오차는 감소하지만 실제 사례에 적용할 경우 오차가 증가하는 문제가 발생하게 된다.

그동안 AI 연구진들은 이 같은 문제를 해결하고자 새로운 데이터를 수집하지 않고 다양성을 늘리는 ‘데이터 증강(data augmentation)’ 방법을 이용하기도 했다. 이미지 알고리즘을 예로 들면 작업할 데이터가 많지 않을 경우 원 이미지를 변형해 이미지 복사본을 만들어 활용했다. 그런데 이러한 방식은 GAN이 제대로된 합성 이미지를 만들어내지 못하고 이미지 변형을 모방 학습하는 상황이 초래될 수 있다는 문제가 있다.

(사진=엔비디아).
(사진=엔비디아).

이번에 개발한 엔비디아의 ‘적응형 판별기 증강(ADA)’ 접근법은 여전히 데이터 증강을 사용하지만 훈련 과정 내내 전 범위에 걸쳐 이미지를 변형하는 대신 필요한 만큼 선별적으로 수행해 과적합을 피할 수 있다. 데이터 일부만을 사용해 유명한 화가들을 모방하고 암 조직의 이미지를 재현하는 등 복잡한 기술을 학습할 수 있다는 게 엔비디아 측의 설명이다.

연구진은 엔비디아 '스타일GAN2(StyleGAN2)' 모델에 새로운 신경망 훈련 기술을 적용함으로써 메트로폴리탄 미술관의 약 1500개 이미지를 기반으로 작품을 새롭게 재창조했다. 엔비디아 DGX 시스템을 활용해 훈련 속도를 높이면서, 역사적인 초상화에서 영감을 얻은 새로운 AI 예술작품을 탄생시킨 것이다. 연구진은 ADA 기술을 이용하면 훈련 이미지의 수를 10~20배 줄일 수 있다고 말한다.

엔비디아 측은 방대한 양의 데이터는 확보하기 어렵거나 시간 소모가 크다는 단점이 있었는데 이제 이 같은 문제를 해결하기 위해 GAN을 사용할 수 있을 것이라고 전했다. 엔비디아는 지난 6일부터 오는 12일까지 온라인으로 열리는 국제 AI 학회인 ‘신경정보처리시스템학회(NeurIPS) 2020’에서 ADA 접근법에 관한 연구 성과를 발표할 예정이다.

(영상=엔비디아 유튜브).

[관련기사] 딥페이크에 이은 페이크 페이스, GAN기술 진화 "지나치게 똑같다"

[관련기사] 소름 돋는 GAN의 진화…가짜 구별 가능하다!

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지