(사진=트웰브랩스)
(사진=트웰브랩스)

오늘날 우리는 방대한 양의 비디오 콘텐츠 생성, 소비가 반복적으로 일어나는 디지털 시대에 살고 있다. 소셜 미디어 플랫폼에는 매 순간 수백만개 비디오가 업로드, 스트리밍되고 있다. 비디오는 단순한 엔터테인먼트를 넘어 교육, 커뮤니케이션, 보안 등 실용 분야에서 중요한 역할을 하고 있다.

하지만 방대한 양의 비디오 데이터를 효과적으로 이해하고 분석하는 것은 여전히 큰 도전 과제로 남아 있다.

비디오는 단순한 이미지의 집합이 아닌, 시간에 따라 변화하는 시각적, 청각적, 텍스트적 정보를 모두 포함하는 복잡한 모달리티의 결합체이기 때문이다. 따라서 비디오 데이터를 이해하려면 다차원적 접근이 필요하다. 비디오 인식(Video recognition), 즉 비디오 내의 객체와 동작 및 사건을 식별하고 분류할 수 있는 기술이 필요한 것이다.

여기서 대형비디오모델(VLM)이 등장한다. VLM은 비디오 데이터를 이해, 분석하는 데 필요한 강력한 도구다. AI 연구 최전선에서 주목 받고 있으며 지속적인 개발이 이뤄지는 연구 분야다.

결과적으로 최근 몇 년간 비디오 모델링 기술은 놀라운 속도로 발전해 왔다. 그중 몇 가지 혁신적 모델을 살펴보고자 한다.

새롭게 등장한 대형 비디오 모델들

■ VideoBERT(비디오버트)  

구글은 2019년에 비디오버트 모델을 소개했다. 이 모델은 자가 지도 학습(self-supervision)을 비디오에 적용, 다량의 데이터를 스스로 학습한다. 비디오 데이터를 이해하기 위해 자동 음성 인식(ASR), 시공간적인 시각적 특징을 분석하는 벡터 양자화(vector quantization for spatiotemporal visual features), 그리고 시퀀스 토큰을 위한 자연어 처리 모델 '버트(BERT)'를 결합한 결과다. 결합 과정에서 시각적 및 언어적 도메인 간의 관계를 모델링했다.

비디오버트는 정제되지 않은 로우(raw) 비디오 데이터를 벡터 양자화를 통해 '시각적 단어(visual words)'로 변환, 모델이 비디오의 중요한 부분은 물론 시간에 따른 변화에 집중할 수 있도록 했다. 덕분에 비디오 캡셔닝(captioning, 비디오 설명 생성)에서 다른 모델보다 뛰어난 성능을 보였다.

■ All-In-One(올인원) 

'올인원(All-In-One)' 모델은 비디오-언어(video-language) 모델, 즉 비디오와 텍스트 정보를 동시에 처리하는 모델이다. 자가지도학습을 통해 다량의 비디오-텍스트 데이터를 사전 학습한다.

특히 비디오 인코더와 텍스트 인코더를 따로 사용하는 비디오버트와는 다르게, 통합된 하나의 인코더를 사용한다. ViT라는 강력한 비전 트랜스포머로 백본 아키텍처를 구축해 정제되지 않은 시각적 신호와 텍스트 신호에서 비디오-언어 표현(representations)을 포착하는 방식으로 작동한다.

올인원 모델은 추가적 계산 없이도 비디오 프레임의 시간적 변화를 잘 파악할 수 있다. 정확히는 시간적 토큰 롤링 작업(temporal token rolling operation)을 사용해 추가적인 매개변수(parameters)나 시간 복잡도를 증가시키지 않고도 드문드문(sparse)하게 샘플링된 프레임의 시간적 표현을 포착한다.

무엇보다 비디오 질의응답, 텍스트-투-비디오 검색, 객관식 문제 해결, 그리고 시각적 상식 추론이라는 네가지 하위(downstream) 비디오-언어 태스크에서 우수한 성능을 보인다.

■ Video MAE 

비디오 MAE는 자가지도 비디오 사전 학습 모델이다. 이 모델은 기존에 비디오 인식을 위한 비전 트랜스포머를 효과적으로 활용한다. 무작위로 튜브들을 가리고서(비디오의 일부를 가리는 일명 masking) 누락된 튜브들을 비대칭적 인코더-디코더 아키텍처(asymmetric encoder-decoder architecture)를 사용해 재구성한다.

비디오에서 꽤나 많은 부분을 가리기 때문에, 영상의 중요한 특징을 더 잘 학습하게 된다. 매우 높은 마스킹 비율과 튜브 마스킹 전략이라는 2가지 핵심 설계를 도입해 비디오 MAE가 더 대표적인(representative) 특징들을 학습하도록 유도한 것이다. 이를 통해 시간적 중복성(temporal redundancy)과 상관성(correlation) 문제를 해결했다.

자연어 감독 학습(natural language supervision)을 사용해 비디오를 인식하는 방법도 있다. 이는 CLIP이 웹상에 존재하는 대량의 이미지-텍스트 데이터를 사용해 시각적 언어(visual language)를 표현하는 법을 배우는 방식과 비슷하다. 모델을 사전 학습시켰다면, 시각적 개념을 자연어로 표현할 수 있기 때문에 별도 추가 학습 없이 다른 태스크로 쉽게 전이(transfer)할 수 있게 된다.

■ X-CLIP 

마이크로소프트의 X-클립 프레임워크는 비디오 인식을 위해 언어-이미지 모델을 사용한다. 프레임 간 통신을 위한 트랜스포머(cross-frame communication Transformer)와 다중 프레임 통합 트랜스포머(multi-frame integration Transformer)라는 두가지 요소로 구성한다.

전자는 비디오 프레임이 메시지 토큰을 사용해 서로 정보를 교환할 수 있도록 하고, 후자는 프레임 수준의 표현을 비디오 수준으로 전이(transfer)한다. 쉽게 말해 비디오 프레임 간의 정보를 교환, 이를 전체 비디오 수준으로 통합해 분석하는 것이다.

X-클립은 비디오 내용을 기반으로 텍스트 프롬프팅을 향상시키는 비디오 특화 프롬프팅 방식을 사용, 적은 양의 학습 데이터로도 좋은 성능을 보일 수 있다. 실제로 완전 지도(fully-supervised), 제로샷, 퓨샷 실험에서 X-CLIP은 라벨링 데이터가 제한적임에도 불구하고 우수한 성능을 보였다.

■ InternVideo

인턴비디오는 마스킹 비디오 모델링과 멀티모달 대조 학습이라는 두가지 자가지도 학습 방식을 결합한 모델이다. 이 모델은 두 트랜스포머에서 학습 가능한 상호작용을 통해 새로운 특징(features)를 도출, 생성적 학습과 대조적 학습의 장점을 모두 활용해 비디오 인식 능력을 높인다.

특히 액션(동작) 이해, 비디오-언어 정렬 태스크, 실생활의 비디오 응용 등 비디오 인식의 핵심 능력을 대표하는 다양한 비디오 이해 벤치마크에서 다른 모델보다 우수한 성능을 선보였다.

이 외에도 새로운 모델은 계속 나오는 추세다.  현존하는 모델에는 어떤 것이 있는지 관심을 가진 채로 지속 탐구하는 노력이 필요할 것으로 보인다.

■ 트웰브랩스의 비디오 모델

트웰브랩스는 비디오 이해 및 비디오-텍스트 생성 분야에서 새로운 초거대모델을 개발하며 비디오 이해의 발전을 이끌어 나가고 있다. 기존 비디오 모델들과는 다르게 사전학습 과정에서 오디오와 텍스트 등 멀티모달 입력을 깊이 있게 통합시켜 비디오에 존재하는 다양한 모달리티 간의 상호작용을 포착, 이해할 수 있게 한다.

더불어 모델을 더 견고하게 만들고 전례 없는 규모로 사전 학습하기 위해 적극적으로 모델 연구, 개발에 투자하면서 영상이해의 선두주자로 나아가고 있다. 앞으로도 기존 비디오 이해 접근 방식의 한계를 극복하고 멀티모달 대형 비디오 모델을 진심으로 연구하는 곳들이 많아지길 바란다.

김서영 트웰브랩스 PMM(Product Marketing Manager)

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지