구글이 1993년에 나온 고전 슈팅 게임 ‘둠(Doom)’을 제작하는 인공지능(AI) 기반 게임 엔진을 공개했다. 생성 인공지능(AI)의 텍스트와 이미지 프롬프트를 통해 실시간으로 비디오 게임을 생성, 비디오 게임 제작 방식이 근본적으로 바뀔 것이라는 전망이 나왔다.
톰스하드웨어는 29일(현지시간) 구글과 텔아비브대학교 연구진이 AI 이미지 생성 기술을 사용해 둠을 실시간으로 시뮬레이션할 수 있는 새로운 AI 모델 '게임N젠(GameNGen)'에 관한 논문을 아카이브에 게재했다고 보도했다.
게임N젠은 게임 엔진으로 작동할 수 있는 신경망 시스템이다. 전통적인 방식으로 그래픽 비디오 프레임을 그리는 대신, 진행될 게임을 예측해 실시간으로 장면을 생성하는 방식이다.
GPU와 유사한 TPU 하나를 사용, 둠 게임플레이의 새로운 프레임을 초당 20프레임 이상 생성할 수 있다.
연구진은 10명의 평가자로 테스트를 진행했다. 그 결과, 실제 둠 게임 영상과 게임N젠이 생성한 1.6초와 3.2초의 짧은 클립을 구분하지 못하는 경우가 있었으며, 실제 게임 영상을 식별해낸 것은 각각 58%와 60%에 불과했다.
연구진은 실시간 비디오 게임 합성을 위해 2022년에 출시된 확산(Diffusion) 모델 '스테이블 디퓨전(Stable Diffusion)' 1.4 버전을 사용했다.
확산 모델은 이전 프레임과 플레이어의 입력을 처리해 새로운 프레임을 생성한다. 이는 둠의 실제 플레이 모습을 담은 방대한 플레이 영상으로 학습한 결과다.
게임N젠의 개발에는 두 단계의 학습 과정이 포함됐다. 먼저 연구진은 강화 학습 에이전트를 훈련해 둠을 플레이하게 했고, 이 플레이 세션을 기록해 자동으로 생성한 학습 데이터셋을 만들었다. 그 다음 데이터셋으로 스테이블 디퓨전을 미세조정했다.
다만, 스테이블 디퓨전을 사용하면 일부 그래픽 오류나 프레임 간의 일관성 부족 문제가 발생할 수 있다. 스테이블 디퓨전은 설득력 있는 정지 이미지를 생성할 수 있지만, 모델이 연속적인 프레임을 출력할 경우 깜박임 현상으로 인해 문제가 발생한다.
이는 스테이블 디퓨전 v1.4의 사전 학습된 오토인코더가 8×8 픽셀 패치를 4개의 채널로 압축하는데, 이로 인해 게임 프레임을 예측할 때 아티팩트가 발생하는 것이다. 예를 들어, 게임 하단의 둠가이(Doomguy)는 끊임없이 눈썹을 위아래로 움직이며 깜박거리고 있다.
또 시간에 따라 이미지를 시각적으로 선명하고 일관되게 유지하는 것이 어렵다. 특히 생성 과정 내내 입력 동작의 스트림에 조건을 맞춰야 하기 때문에 이전 프레임을 기반으로 새 프레임을 반복적으로 생성하는 ‘자기 회귀(autoregression)’ 과정에서 시간이 지남에 따라 생성된 이미지 품질이 불안정해지고 저하될 수 있다.
이 문제를 해결하기 위해 연구진은 훈련 데이터에 다양한 수준의 랜덤 노이즈를 의도적으로 추가하고, 모델이 이 노이즈를 수정하도록 학습해 모델이 장시간 동안 생성된 가상 세계의 품질을 유지할 수 있도록 했다.
현재 게임N젠은 비교적 간단한 그래픽을 가진 둠을 시뮬레이션하는 데 중점을 두고 있지만, 더 복잡한 게임과 시뮬레이션도 가능할 수 있음을 시사한다. 이를 통해 비디오 게임 제작 방식에도 근본적인 변화를 가져올 수 있다는 지적이다.
연구진은 "이 기술을 활용하면 새로운 비디오 게임이 텍스트 설명이나 예제 이미지를 통해 생성될 수 있을 것"이라고 전망했다.
프로그래밍 기술 대신, 프롬프트만으로 정적인 이미지를 플레이 가능한 수준이나 기존 게임 캐릭터로 변환할 수 있을 것으로 보인다는 평이다.
박찬 기자 cpark@aitimes.com
