트웰브랩스, 영상 이해 모델 출시…”구글·오픈AI 성능 능가”

장세민 기자
입력 2024.03.14 18:00
댓글 0

이 기사를 공유합니다

트웰브랩스(대표 이재성)가 구글이나 오픈AI를 뛰어넘는 ‘현존 최고 성능’의 인공지능(AI) 영상이해 모델을 선보였다고 밝혔다.

트웰브랩스는 영상언어 생성 모델 ‘페가수스(Pegasus-1)’와 멀티모달 영상이해 모델 ‘마렝고(Marengo 2.6)’를 업데이트 출시했다고 14일 밝혔다.

페가수스는 지난해 11월 정식 공개한 모델로, 영상 요약과 하이라이트 생성 등 영상 기반의 텍스트 생성 기능을 선보인 바 있다. 음성을 이용해 요약본을 생성하는 다른 모델과는 달리, 영상을 그대로 이해하는 ‘완전한 멀티모달’이다.

이번 업데이트로 ‘질의응답’ 관련 성능을 대폭 향상했다고 전했다. 영상 내용 요약 및 텍스트 생성을 넘어 특정 부분에 대한 답변도 얻을 수 있다.

기술적으로는 ‘시공간 이해능력’이 증가해 영상의 문맥을 파악하는 능력이 향상했다는 설명이다.

대기자 명단 등록을 통해 사용 가능했던 이전 버전과 달리, 이번에는 ‘오픈 베타’ 버전을 공개 출시한다. API 형태의 서비스형 소프트웨어(SaaS)로 공개, 해당 웹에 접속하면 즉시 만나볼 수 있다.

개발자, 기업 등은 대량의 영상 입력이 가능한 유료 버전을 이용할 수 있다.

마렝고는 영상뿐만 아니라 이미지 및 음성 기반 모델을 통합 지원한다.

트웰브랩스는 내부 테스트를 진행, 현재 학계에서 일반적으로 사용 중인 벤치마크를 기준으로 비교 평가를 진행했다. 그 결과 최근 구글이 공개한 '비디오프리즘' 모델보다 뛰어난 성능을 보였다고 전했다.

또 구글의 '제미나이 1.5 프로', 오픈AI의 'GPT-4V' 등 현존 최고 성능의 멀티모달 모델들과 비교, 최대 43%가량 성능 우위를 보인다고 밝혔다.

특히 분 단위의 짧은 영상만을 처리할 수 있는 다른 모델과 달리, 수백시간의 영상들을 실시간으로 처리할 수 있다고 설명했다.

자체적으로 수집해 온 비디오 데이터셋을 통해 '모션 이해(Motion Understanding)' 인지 기능을 대폭 강화했다고 전했다. 별도의 스켈레톤화를 거치지 않고, 모션과 방향 자체를 이해하는 방식이다.

물리 보안과 스포츠 분야 영상에 유용하도록 도메인 성능까지 향상했다.

비공개 베타 버전에서는 음성 및 이미지 이해 성능을 강화해 텍스트 투 오디오(Text-to-Audio), 오디오 투 비디오(Audio-to-Video), 텍스트 투 이미지(Text-to-Image), 이미지 투 비디오(Image-to-Video)의 작업 수행도 가능하다고 밝혔다.

이는 모델에 생성 기능이 있는 뜻은 아니다. 트웰브랩스 관계자는 “텍스트 투 오디오의 경우, 사용자가 입력한 텍스트를 기반으로 해당 내용을 포함한 오디오(대사나 효과음 등)를 탐색, 제시할 수 있다는 의미”라며 “정확히 말하자면 오디오가 아닌 오디오를 포함한 비디오를 찾는 것”이라고 설명했다.

한편 트웰브랩스는 독보적 멀티모달 신경망 기술을 바탕으로 글로벌 업계의 주목을 받고 있다. 지난해 CB 인사이트 선정 ‘세계 100대 AI 기업’ 및 ‘세계 50대 생성 AI 스타트업’에 선정된 것은 물론 엔비디아, 인텔, 삼성넥스트, 한국투자파트너스 등으로부터 1000만달러(약 140억원) 규모의 전략적 투자를 유치한 바 있다.

이재성 트웰브랩스 대표는 “해당 모델은 영상 이해에 특화한 것으로, 오픈AI의 소라나 구글 제미나이의 영상 및 이미지 생성과는 차이가 있다”라며 “페가수스 및 마렝고 모델은 기존 대형멀티모달모델로는 수행 불가한 세밀한 수준의 작업까지 지원한다”라고 말했다.

장세민 기자 semim99@aitimes.com