엔비디아가 1분 길이의 복잡한 이야기를 일관된 스타일로 풀어내는 동영상 생성 인공지능(AI) 기술을 선보였다. 이를 통해 생성한 ‘톰과 제리’는 놀라운 재현율을 보여줬다. 

엔비디아와 스탠포드대학교 연구진은 13일(현지시간) 트랜스포머 아키텍처를 활용해 1분 분량의 멀티 샷 동영상을 일관성 있게 생성할 수 있는 새로운 기법 ‘테스트-타임 훈련(Test-Time Training, TTT)’을 소개했다. 

텍스트를 기반으로 한 동영상 생성 기술은 빠르게 발전하고 있지만, 여전히 긴 이야기 구조를 담아내는 데에는 한계가 있다. 오픈AI의 ‘소라(Sora)’, 구글의 ‘비오(Veo)’, 메타의 ‘무비 젠(Movie Gen)’ 등 최신 확산 모델은 짧은 고화질 영상 제작에는 성공했지만, 대부분의 클립은 20초를 넘기지 못한다. 또 문제는 단순한 영상 길이가 아니라, 스토리 전개와 장면 간의 흐름을 얼마나 일관성 있게 유지하느냐는 점에 있다.

이 문제를 해결하려는 시도로는 맘바(Mamba), 델타넷(DeltaNet) 등 순환 신경망(RNN) 계열 모델이 사용돼 왔다. 하지만 이 방식은 내부의 ‘숨겨진 상태(hidden state)’를 고정된 크기로 유지해야 해, 긴 이야기를 담기엔 정보량이 부족하다는 단점이 있다. 예를 들면, 영화 한 편을 엽서 한 장에 담으려는 것과 같아서, 중요한 내용이 빠지기 쉽다.

이번 연구의 핵심은 바로 숨겨진 상태를 작고 유연한 신경망으로 구성한 ‘TTT 레이어’다. 이 레이어는 영상이 생성되는 추론 과정 중에도 계속 스스로 학습(self-supervised learning)하며 맥락에 적응해 나간다.

이를 통해 캐릭터의 행동, 장면 간 연결, 이야기의 흐름을 실시간으로 파악하며 일관된 이야기 구조를 유지할 수 있게 된다. 즉, 영상이 흘러갈수록 AI 모델의 이해도와 표현력이 함께 성장하는 셈이다.

연구진은 이 TTT 레이어를 기존에 사전 학습된 트랜스포머 모델에 통합했고, 그 결과 텍스트로 구성된 스토리보드를 바탕으로 최대 1분 길이의 애니메이션 영상 생성에 성공했다.

이번 실험은 고전 애니메이션 ‘톰과 제리’ 시리즈를 바탕으로 큐레이션한 데이터셋을 활용해 진행됐다. TTT 레이어를 적용한 모델은 기존의 맘바 2(Mamba 2), 게이티드 델타넷(Gated DeltaNet), 슬라이딩 윈도우 어텐션(Sliding Window Attention) 방식과 비교해 더 복잡하고 자연스러운 이야기 흐름을 표현하는 데 뛰어난 성능을 보였다. 실제로 100개 영상에 대한 인간 평가에서 평균 34 포인트 높은 점수를 기록하며 기존 기법들을 크게 앞섰다.

연구진은 이 기술의 구현 코드를 깃허브에 공개해 누구나 접근할 수 있도록 했다.

 

한편, 이번 연구에서 생성된 AI 버전의 ‘톰과 제리’ 영상은 SNS와 유튜브 등 인터넷상에서 큰 반응을 얻었다.

일부는 AI의 기술적 성과에 감탄하며 "놀라운 진전", "원작을 현대적으로 재해석했다"고 평가했다.

반면, AI가 예술을 훼손하고 있다는 반응도 적지 않았다. “원작이 더 낫다”나 “별로 웃기지도 않는다. 오리지널이 최고”와 같은 반응이 있는가 하면, “진짜 애니메이터들이 무덤 속에서 뒤척일 듯”이나 “기술은 좋지만 장인 정신이 사라지고 있다”라는 비판도 이어졌다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지