자율주행 전문가들로 구성된 스타트업 오디세이(Odyssey)가 사용자 움직임에 반응해 실시간으로 변화하는 월드 모델(WM) 기반의 인터랙티브 비디오 기술을 선보였다. 이 과정에서 WM이 기존 동영상 생성 인공지능(AI) 모델과 어떤 차이가 있는지 상세하게 설명했다.
오디세이는 28일(현지시간) X(트위터)를 통해 인간과 상호작용할 수 있는 스트리밍 영상을 생성하는 새로운 WM 기반 기술을 을 공개했다.
이 회사는 GM의 자율주행 회사인 크루즈 출신 올리버 카메론 CEO와 영국 자율주행 선두 주자 웨이브 출신 제프 호프 CTO가 지난해 공동 창립했다.
오디세이의 기술은 1인칭 게임처럼 사용자가 영상 속 공간을 'WASD' 키로 자유롭게 탐험할 수 있도록 한다.
영상은 웹에서 체험할 수 있는 데모 형태로 공개됐으며, 40밀리초(ms)마다 새로운 프레임을 생성해 실시간으로 전송한다. 이를 통해 사용자는 몰입감 있는 세계를 직접 걷고 둘러볼 수 있다.
현실 세계를 본뜬 배경은 직접 개발한 360도 배낭형 카메라로 촬영된 데이터를 기반으로 제작했다.
이번 기술을 ‘인터랙티브 비디오’라고 정의했다. AI가 과거 상태와 동작, 현재 환경, 그리고 예측된 동작을 바탕으로 다음 프레임을 실시간으로 생성한다고 설명했다.
5분 이상의 영상 스트리밍이 가능하며, 현실감 있는 픽셀 생성과 공간적 일관성 유지, 비디오로부터 동작 학습, 장면의 시간 흐름 관리 등의 특성이 있다.
인터랙티브 비디오는 동영상 생성 AI의 결과물처럼 보일 수 있다. 그러나, 기존 동영상 생성 AI의 아키텍처와 매개변수, 학습 데이터셋은 사용자 상호작용에 따라 실시간으로 변화해야 하는 영상 생성에는 적합하지 않다고 지적했다.
예를 들어, 대부분 동영상 AI는 한번에 고정된 프레임 수를 생성한다. 이 과정에서 전체 클립을 표현하는 구조화된 임베딩을 먼저 구축하는데, 이는 중간에 변화가 없는 ‘단순 영상 클립 생성’에는 효과적이다.
하지만, 이 방식은 인터랙티브 비디오에는 적합하지 않다. 일단 임베딩이 고정되면, 영상은 정해진 방향으로만 진행되기 때문에 사용자의 실시간 행동에 따른 반영이 어렵기 때문이다.
따라서 WM은 접근 방식이 전혀 다르다. 현재 상태(state)와 사용자 행동(action)을 바탕으로 다음 상태를 예측하는 구조다. 이 방식은 입력 간격(interval)이 유연한데, 새로운 입력이 언제든 발생할 수 있기 때문에 간격은 영상 한 프레임 단위로 짧아질 수 있다. 사용자의 실시간 행동에 따라 영상 생성 방향이 바로 바뀔 수 있다.
이런 특성은 인터랙티브 비디오에 반드시 필요한 요소라고 설명했다. 결국, 상호작용형 영상이라는 새로운 매체를 실현하기 위해서는 전통적인 동영상 AI가 아닌, WM이 필수적이라는 뜻이다.
처음으로 공개한 데모는 아직 실험적인 성격이 강하다. 갑자기 주변 구조가 변하거나 건물 벽을 통과하거나 제자리에서 가만히 있어도 AI가 사용자를 자동으로 움직이는 등 불안정하다.
오디세이도 “지금은 마치 꿈속을 탐험하는 듯한 기묘하고 불안정한 경험”이라며 아직 초기 단계라는 점을 인정했다. 하지만 건물 외관처럼 노이즈가 많은 부분은 '뉴럴 네트워크' 필터 기술로 해결하는 등 개선할 것이라고 덧붙였다.
앞으로는 생성된 영상을 언리얼 엔진이나 블렌더, 어도비 등의 편집 도구로 불러와 편집할 수 있는 소프트웨어를 개발 중이다. 그러나 게임만을 위한 기술은 아니며, 교육이나 광고, 영화, 여행, 훈련 등 모든 영상 콘텐츠의 미래를 바꿀 잠재력이 있다고 강조했다. 크리에이터들과 협업도 추진 중이다.
영상은 엔비디아 'H100' GPU 클러스터에서 초당 최대 30프레임으로 스트리밍된다. 사용자는 시간당 1~2달러의 사용료를 내야 한다.
오디세이는 연산 자원 효율성과 장면 안정성을 높이기 위해 풍부한 세계 표현과 상호작용 공간 확장을 연구하고 있다. 나아가 홀로그램을 활용해 가상의 공간과 상황을 구현하는 ‘홀로덱(Holodeck)’을 구현하는 것이 목표라고 밝혔다.
한편, 이 회사는 EQT 벤처스, GV, 에어 스트리트 캐피털 등으로부터 총 2700만달러(약 370억원)를 유치했다. 이 기술로 구글이나 메타, 월드랩스 등 LM을 개발 중인 주요 기업 대열에 포함될 수 있을지 주목된다.
그리고 초기 반응은 매우 긍정적인 것으로 나타났다. 카메론 CEO는 링크드인을 통해 기술 공개 데모 사이트에 첫날 8만5000개의 비디오 스트림 요청이 들어왔으며, 이를 통해 2억5000만개의 비디오 프레임을 생성했다고 밝혔다.
박찬 기자 cpark@aitimes.com
