익숙치 않은 시각 객체 감지하는 인간 능력 모방 지원
다양한 유튜브 영상 포함하는 키네틱스 데이터셋 무작위로 선택ㆍ인식
효율적으로 딥러닝 모델 학습 및 배포하는 오픈 소스 플랫폼 디텍트론2고(D2Go) 공개

페이스북은 12일(현지 시각) 자사 인공지능 블로그(AI Blog)를 통해 새로운 벤치마크 UVO(Unidentified Video Objects)를 공개했다. (원문 링크) 비디오 내 모든 객체를 철저히 감지, 분할, 추적하는 것을 목표로 하는 개방형 객체 분할에 대한 연구를 용이하게 한다. 일반적으로 기계는 특정 객체 개념을 배워야만 인식이 가능한데, UVO는 익숙치 않은 시각 객체를 감지하는 인간의 능력을 모방하도록 돕는다. 

객체 분할은 동영상 프레임 내 객체 영역을 배경으로부터 분할하는 기술로서 컴퓨터 비전 분야에서 가장 활발한 연구 주제 중 하나다. 장면에서 물체를 올바르게 식별하고 위치를 파악하는 데 핵심 기술이기 때문이다. 

페이스북 UVO 소개 영상 캡쳐(사지=페이스북 인공지능 블로그)
페이스북 UVO 소개 영상 캡쳐(사지=페이스북 인공지능 블로그)

연구자들은 시각적인 장면에서 객체를 분할하는 다양한 접근 방식을 제안해 왔다. 하지만 훈련된 모델 외의 새로운 데이터에 대한 작업 수행은 어렵다는 한계가 존재했다. 페이스북은 “이같은 제약을 극복하기 위해 사전 교육 여부와 상관없이 물체를 감지하고 분할하는 개방형 환경을 탐색하게 되었다”고 설명했다. 

UVO는 한 페이지에 그려지는 영상 객체 표본을 선택하는 데 사용되는 고밀도 객체 마스크 주석과 행동 인식 벤치마크 키네틱스(Kinetics)가 채택한 비디오를 포함한다. 다양한 출처의 유튜브 영상으로 구성된 키네틱스 데이터셋 중 하나를 무작위로 선택해 낯선 사물을 인식한다는 것.

비디오 클립의 고유한 개체 인스턴스는 평균 13.5개로 폐쇄적 환경에서 구축된 기존 데이터셋의 8배에 달한다. 페이스북 측은 “UVO가 개방형 객체 분할을 위한 새로운 접근법을 개발하는 동시에 영상 이해에 대한 포괄적 연구를 가속화하는 다목적 테스트베드가 될 것”이라며 기대감을 드러냈다. 

페이스북 UVO 소개 영상 캡쳐(사지=페이스북 인공지능 블로그)
페이스북 UVO 소개 영상 캡쳐(사지=페이스북 인공지능 블로그)

현재 비디오 모델은 약 2초 가량의 짧은 클립만을 이해하고 예측할 수 있다. 반면 개방형 객체 분할은 긴 비디오 모델링 뿐만 아니라 비디오 또는 이미지에서 객체 간의 관계를 학습하는 등의 복잡한 예측 작업 수행을 가능케 한다.

AI가 어떤 물체든 탐지할 수 있게 된다면 객체 검색과 인스턴스 등록, 인간-객체 상호 작용 모델링 및 인간 활동의 이해 등 현재보다 더 광범위한 작업을 실행할 수 있다. 이를 위해 개방형 환경에서의 예측 능력은 필수적이다. 

한편, 페이스북은 2019년 연구 및 개발자들에게 어떤 물체 탐지 시스템에도 맞춤형 모듈을 연결할 수 있는 경로를 제공하고자 ‘디텍트론2(Detectron2)’를 선보인 바 있다. 이를 기반으로 올해 5월 모바일 기기와 하드웨어에 효율적인 딥러닝 객체 탐지 모델을 학습하고 배포하는 새로운 오픈 소스 플랫폼 '디텍트론2고(D2Go)'를 공개했다. 해당 플랫폼은 온디바이스(On-device) 모델로서 서버 또는 클라우드 기반 모델에 비해 객체 식별 시 발생하는 대기 시간을 크게 단축했다. 

AI타임스 박유빈 기자 parkyoobin1217@aitimes.com

[관련기사] 페이스북, 메타포트와 AI 로봇 위한 교육용 가상 환경 구축에 협력

[관련기사] 페이스북, 로봇 개발 플랫폼 오픈소스화한다...구글과 MS도 개방형 로봇 플랫폼 보유

키워드 관련기사
  • 페이스북, GPT-3 능가하는 챗봇 선보였다 ...최신 정보로 대화 가능한 AI 챗봇 블렌더봇 2.0 공개
  • 페이스북AI, 지형 변화에도 적응하는 AI 기술 개발...중국 스타트업 로봇에 적용
  • 페이스북AI연구소, 딥페이크·저작권 위반 막는 ‘착한 기술’ 개발