구글, 획기적인 AI 비디오 메이커 공개...
긴 텍스트 프롬프트도 하나하나 모두 구현

이마젠 비디오가 텍스트 프롬프트 '설거지하는 곰'으로 생성한 비디오 (사진=구글)
이마젠 비디오가 텍스트 프롬프트 '설거지하는 곰'으로 생성한 비디오 (사진=구글)

시나리오처럼 긴 텍스트 명령어를 입력하면 이를 계속 이어서 생성해 마치 영화와 같은 장편 영상물까지 만들어 주는 인공지능(AI) 모델이 등장했다.

구글이 이같은 성능을 지닌 AI 시스템 '이매진 비디오(Imagen Video)'와 '페나키(Phenaki)'를 공개했다고 테크크런치가 6일(현지시간) 보도했다.

이매진 비디오가 고화질 영상을 만드는데 초점을 맞췄다면 페나키는 상세하게 묘사한 명령어를 이해해 장편의 영상을 만들어 주는 것이 특징이다.

우선 이매진 비디오는 텍스트 프롬프트에서 초당 24프레임으로 1280×768 픽셀의 고화질(HD) 비디오를 생성, 기존 동영상 제작 AI보다 월등하게 개선된 수준의 영상을 보여준다. 

최근 메타가 공개한 텍스트 비디오  변환 AI모델인 '메이커비디오(Make-A-Video)'를 훌쩍 뛰어넘는 성능이다. 이는 '달리'와 같은 텍스트-이미지 생성기가 출시된 지 불과 6개월 만에 일궈낸 비약적인 발전이라는 점에서 탄성을 자아내기 충분하다는 평가가 나온다.

이마젠 비디오가 텍스트 프롬프트 '말을 타고 있는 우주 비행사'로 생성한 비디오 (사진=구글)
이마젠 비디오가 텍스트 프롬프트 '말을 타고 있는 우주 비행사'로 생성한 비디오 (사진=구글)

이매진 비디오는 유명 화가 작품을 기반으로 한 비디오 생성, 개체 구조를 유지하면서 3D 회전 개체 생성, 다양한 애니메이션 스타일의 텍스트 렌더링과 같은 몇 가지 주목할만한 기능을 포함한다. 

텍스트 설명을 가져와 먼저 24×48픽셀 해상도에서 16프레임, 초당 3프레임 비디오를 생성한다. 그다음 7단계의 확산 모델로 점진적으로 추가 프레임을 업스케일링하고 예측해, 최종적으로 1280×768픽셀에서 총 128프레임, 초당 24프레임 비디오를 생성한다. 이렇게 생성한 최종 비디오의 길이는 5.3초다.

'폭풍우가 치는 바다에서 해적선 간의 격렬한 전투를 통해 비행'으로 생성한 이마젠 비디오 (사진=구글)
'폭풍우가 치는 바다에서 해적선 간의 격렬한 전투를 통해 비행'으로 생성한 이마젠 비디오 (사진=구글)

기존 이미지 생성 시스템이 이해하기 어려웠던 텍스트 프롬프트를 문제없이 소화한다는 것도 강점이다. 예를 들어 스테이블 디퓨전이나 달리는 ‘디퓨전 로고(A logo for Diffusion)’와 같은 단어 구조의 프롬프트를 이해하는 게 어려웠지만, 이마젠은 문제없이 렌더링한다.

페나키는 더 획기적이다. 더 구체적이고 긴 동영상을 만들어 준다. 기존에는 프롬프트의 '단어'를 기반으로 AI가 장면을 유추해서 영상을 만들었다면, 페나키는 '연속적이고 구체적인 문장'으로 동영상을 만들어낸다.

예를 들어 아래와 같은 긴 프롬프트를 입력하면 페나키는 2분짜리 비디오를 생성해 준다.

페나키가 위의 프롬프트로 생성한 2분 분량의 비디오 (사진=구글)
페나키가 위의 프롬프트로 생성한 2분 분량의 비디오 (사진=구글)

미래 도시의 교통량이 많다. 외계인 우주선이 미래 도시에 도착한다. 카메라는 외계인 우주선 안으로 들어간다. 카메라는 파란색 방에 우주 비행사를 보여줄 때까지 앞으로 이동한다. 우주 비행사가 키보드를 입력하고 있다. 카메라가 우주 비행사에게서 멀어진다. 우주 비행사는 키보드를 떠나 왼쪽으로 걸어간다. 우주 비행사는 키보드를 떠나 걸어간다. 카메라는 우주 비행사 너머로 이동하여 화면을 본다. 우주 비행사 뒤의 화면에는 바다에서 헤엄치는 물고기가 표시된다. 파란 물고기로 크래시 줌. 우리는 어두운 바다에서 헤엄치는 푸른 물고기를 따라간다. 카메라는 물을 통해 하늘을 가리킨다. 바다와 미래 도시의 해안선. 미래의 마천루를 향해 크래시 줌. 카메라는 많은 창 중 하나를 확대한다. 우리는 빈 책상이 있는 사무실에 있다. 사자가 사무실 책상 위를 달리고 있다. 카메라는 사무실 내부의 사자 얼굴을 확대한다. 사무실 방에서 검은 양복을 입은 사자를 축소한다. 입고 있는 사자가 카메라를 바라보며 미소 짓고 있다. 카메라는 마천루 외부로 천천히 축소된다. 현대 도시에서 저속 촬영한 일몰이다.

페나키는 이처럼 시나라오 형태의 텍스트 명령을 입력하면 영화를 방불케하는 비디오를 만들 수 있다.

이매진 비디오는 '품질'에 중점을 두었다면 페나키는 '일관성과 길이'를 우선시한다는 것이 구글의 설명이다.

물론 페나키가 생성한 비디오는 아직 부자연스럽다는 결함도 있다. 하지만 비디오의 긴 러닝 타임과 길고도 복잡한 텍스트 설명을 얼마나 잘 구현해냈는지를 확인하면 감탄이 나올 정도라는 평가다.

이매진 비디오의 훈련 데이터는 공개적으로 사용 가능한 '레이온-400M' 이미지-텍스트 데이터 세트와 1400만개의 비디오-텍스트 쌍 및 6000만개의 이미지-텍스트 쌍에서 가져온 것이다.

구글에서 필터링한 데이터를 훈련에 사용했지만, 여전히 성적이거나 폭력적, 차별적인 유해 콘텐츠를 생성하는 데에도 사용할 수 있다는 것이 큰 문제다.

이에 구글은 정식 공개를 미루기로 했다. 구글 측은 "우리는 우려가 완화될 때까지 이마젠 비디오 모델 또는 해당 소스 코드를 릴리스하지 않기로 결정했다"고 이유를 설명했다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • 구글, 3D 데이터 세트 없이 3D 이미지 생성하는 AI 모델 공개
  • 메타, AI 비디오 생성기 ‘메이커비디오’ 공개
  • '동영상 만들어주는 AI' 나왔다