비디오를 ‘잘 이해하는 것'이 중요한 시대가 찾아왔다.
소셜 미디어 플랫폼에 비디오 콘텐츠가 늘어나고 공공장소에 감시 카메라가 증가하는 등 비디오 이해 시스템의 자동화 수요가 자연스레 증가했다.
하지만 얼마 전까지만 해도 비디오 이해는 실제 사회적 중요성에 비해, 텍스트 및 이미지 이해 처리(text and image understanding tasks)보다 주목을 받지 못하는 추세였다. 그 이유로는 어떤 것들이 있을까.
■ 컴퓨팅 부담
먼저 비디오 처리가 텍스트나 이미지 처리만큼 주목받지 못한 이유에는 컴퓨팅 부담이 지배적이라고 볼 수 있다.
비디오는 텍스트나 이미지보다 용량이 훨씬 크고, 분석하려면 더 많은 연산 능력(processing power)이 필요하다. 특히 토큰 길이와 관련해 이차적 복잡성(quadratic complexity)을 가진 트랜스포머 아키텍처를 사용할 때 문제가 더 두드러진다.
기본적으로 트랜스포머에서는 시퀀스(입력으로 들어온 문장)가 길어질수록 셀프 어텐션(시퀀스 내에서 단어들 간의 관계를 고려하는 것, 즉 문맥적 관계성을 추출하는 과정)에서 계산해야 하는 단어쌍들이 제곱수의 비율로 증가한다. 연산이 2차 복잡도(quadratic complexity)를 가지게 된다는 것은 이러한 의미다.
예를 들자면 보통 10분짜리 영상의 경우 초당 30프레임(이미지)을 가지고 있다. 이는 곧 영상에 총 600*30개의 이미지, 즉 1만8000개의 이미지가 들어있다는 의미이다.
트랜스포머의 2차 복잡성 (quadratic complexity) 을 생각하면, 이때 총 필요한 셀프 어텐션 연산량은 18000 x 18000, 즉 3억2400만번이 된다.
■ 시간적 차원 포함
또 비디오를 분석하려면 텍스트 및 이미지와는 다르게 시간적 차원을 고려해야 한다. 즉 비디오 이해는 시간정보(temporal) 모델링에 독특한 도전을 제시한다. 시간적 정보까지 고려해야 하기에 다른 모달리티(modality)에서는 흔히 사용하지 않는 특화된 기술과 모델을 필요로 한다.
■ 시각정보와 맞물린 오디오 포함
비디오 클립은 시각적 정보 외에 추가적인 연산이 필요한 '동기화된 오디오 신호(synchronized audio cues)'를 동시 포함하고 있다. 해당 오디오 신호에는 비디오에 들어있는 소리나 대화가 들어갈 수 있기 때문에 시청자에게 추가적인 문맥(context)과 정보를 제공하게 된다.
그리고 이런 오디오 신호는 비디오에서 제시하는 시각적 정보만큼이나 중요하다.
결과적으로 비디오를 분석하려면 반드시 이런 오디오 신호를 처리(audio cue analysis)해야 하며, 영상 속 시각정보 분석(visual analysis)만큼이나 주목을 받아야 하는 부분이다.
이처럼 몇가지 허들에도 불구하고 비디오 이해 연구에는 많은 진전이 있었다. 비전-언어 모델의 효과성이 알려지고 멀티모달이 하나의 트렌드로 등장하며 여러가지 언어 및 비전 초거대모델들이 해결책으로 떠올랐다.
현재 많은 연구 커뮤니티도 해당 주제에 대해 활발히 연구 중이다. 하지만 실제 응용 사례에서도 사용이 가능하고 신뢰할 수 있는 비디오 이해 시스템을 개발하기까지는 더 많은 연구가 필요한 상태다.
트웰브랩스는 허들을 뛰어넘고 사람만큼이나 비디오를 잘 이해하고 분석할 수 있는 영상 이해 기술을 개발하기 위해 초거대모델 개발 및 연구에 힘쓰고 있다.
비디오를 잘 이해하는 모델의 수요는 높아지고 있고, 좋은 모델은 영상을 이용하는 스포츠, 엔터테인먼트, 등 여러 분야에서 많은 도움을 줄 수 있다. 앞으로 비디오 이해 분야에 진심인 기관 및 기업이 연구를 통해 더 많은 개발과 진척을 이뤄내길 바라본다.
김서영 트웰브랩스 PMM(Product Marketing Manager)
