트웰브랩스가 인공지능(AI) '영상이해' 기술을 실제 산업에 본격 적용한다.
트웰브랩스(대표 이재성)는 2023년 말 공개한 영상언어생성모델 '페가수스'의 1.2 업데이트 버전(Pegasus-1.2)을 12일 공개했다.
이번에는 모델의 '맥락 이해' 능력을 고도화, 실제 산업 수요를 충족했다고 강조했다.
2023년 11월 처음 공개한 '페가수스'는 트웰브랩스가 자체 개발한 800억 매개변수의 대형영상언어 파운데이션모델(VLFM)이다. 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 당시 글로벌 시장에서도 앞선 기능으로 손꼽혔다.
특히 이번 업데이트에서는 ▲영상의 맥락 이해 ▲산업 수요에 맞는 컨텍스트 길이 확대 등에 집중했다고 전했다.
먼저, 화면과 음성을 동시 분석하는 능력을 크게 개선했다고 설명했다. 예를 들어, 하나의 영화 속 장면 안에서는 총소리와 사람의 말소리, 그리고 다른 소음 등이 결합해 동시다발적으로 수많은 오디오 데이터를 생성한다. 또은 소리로는 들리지 않는 정보가 배우의 표정이나 상황만으로 전달될 수도 있다.
이런 장면을 이해하기 위해서는 화면의 맥락을 읽어내야 하는데, 이를 위해서는 음성 데이터와 비디오(시각) 데이터를 동시 분석하는 기술이 중요하다는 설명이다. 트웰브랩스 관계자는 "이전 버전에서는 약간의 환각 현상이 발생했던 부분도 이제는 정확하게 분석해 낼 수 있다"라고 말했다.
이때 한번에 분석할 수 있는 영상의 길이, 즉 컨텍스트 길이를 확대했다고 전했다. 이로 인해 짧은 영상부터 1시간짜리 장편 영상까지 다양한 길이의 영상을 정확하게 처리할 수 있다고 소개했다.
미디어 산업 적용이 크게 확장됐다는 설명이다. 장편 영화 한편, 드라마 에피소드 한편 등 대부분 미디어 작품이 1시간 이상이라는 걸 고려하면 작업 속도가 현저히 빨라질 것이라고 밝혔다.
영상을 효율적으로 저장하고 재사용하는 기술도 강화했다. 이미 한번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리할 수 있다.
이처럼 영상 맥락과 세부 내용을 정확하게 파악해 요약본, 하이라이트, 상세 보고서 등 다양한 형태의 텍스트로 만들어낼 수 있기 때문에 실제 산업 현장에서 큰 활용 가치를 가질 것이라고 전망했다.
관계자는 "최근 산업 전반에 진출을 본격화하며 페가수스 업데이트를 더 가속화했다"라며 "기업 요청 중 가장 두드러졌던 컨텍스트 길이 확장에 집중했다"라고 말했다.
또 "영상 콘텐츠 분류와 하이라이트 추출(엔터테인먼트), 강의 영상 요약 및 키포인트 추출(교육), CCTV 영상 분석 및 이상 징후 탐지(보안) 등 적용 가능하다"라고 덧붙였다.
한편, 페가수스-1.2는 고급 비전 인코딩 전략과 정교한 토큰 감소 기술을 통해 모델 효율성과 이해도를 크게 높였다고 전했다. 다른 영상 AI 모델들이 모델 사이즈 확장을 통해 성능을 끌어올리는 방식을 택한 것과 달리, 페가수스-1.2는 상대적으로 가벼운 모델로도 뛰어난 성능을 구현할 수 있다는 것이다.
'GPT-4o'나 '제미나이 1.5 프로' 등 대표적인 멀티모달모델보다 응답 속도가 빠르다고 조했다. 더 뛰어난 성능을 보다 낮은 비용으로 제공한다는 것이다. 여기에 트웰브랩스의 자체 멀티모달 임베딩 모델인 '마렝고'를 결합하면 한층 더 정교한 영상 이해 서비스를 구현할 수 있다고 강조했다.
이승준 트웰브랩스 CTO는 “영상 이해를 위해서는 화면 속 객체들의 공간적 관계, 시간에 따른 변화, 전후 맥락 간의 복잡한 상호작용을 모두 파악할 수 있는 고도화된 AI 모델이 필요하다”라며 “혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 됐다”라고 말했다.
장세민 기자 semim99@aitimes.com
