경로 계획, 물리적 환경 및 상황 파악, 3차원 공간 기억 가능해져

(사진=페이스북 AI 블로그)
(사진=페이스북 AI 블로그)

인공지능(AI)이 사람처럼 소리로 주변 환경을 파악하고 공간을 인식하거나 컴퓨터비전(카메라)으로 볼 수 없는 부분을 추론할 수 있는 능력도 갖추게 될 전망이다.

페이스북이 최근 오디오 렌더링 모음 '사운드스페이스(SoundSpaces)'에 이어 사물과 공간을 입체적으로 기억하는 모듈인 ‘맵넷(SemanticMapNet)’을 출시할 예정이라고 벤처비트가 지난 21일(현지시간) 보도했다.

사운드스페이스는 3차원 환경의 음향 시뮬레이션을 토대로 개발했다. 시각은 인식의 토대를 이루지만 소리도 중요하다. 소리는 마른 잎의 질감이나 샴페인 병 내부 압력 같은 시각적 혹은 물리적 데이터로 감지할 수 없는 풍부한 정보를 포착한다. 그러나 그동안 물리적 환경을 이해하는 용도로 소리를 활용한 시스템과 알고리즘은 거의 없었다.

'맵넷'은 주변을 둘러보며 사물과 공간을 입체적으로 기억하는 모듈이다. 특정 물체가 픽셀 단위로 만든 지도상 위치를 예측할 수 있도록 한다.

페이스북 블로그에 "자율 항법, 모바일 조작, 자기중심적인 AI 비서를 개선하기 위해서는 신경 메모리, ‘공간표현’ 능력이 중요하다"고 설명했다.

페이스북은 사운드스페이스 데이터 세트와 맵넷 모듈 외에도 카메라로 직접 볼 수 없는 영역의 일부를 추론할 수 있는 모델을 개발했다. 정지된 이미지 프레임에서 물체가 있는지를 예측, 시간이 지남에 따라 환경을 탐색하는 방법을 학습하면서 추론을 수행하는 모델이다.

(사진=페이스북 AI 블로그)
(사진=페이스북 AI 블로그)

페이스북은 이를 통해 현실 세계를 직관적으로 생각하고, 계획하고, 추론할 수 있는 지능형 AI 시스템을 구축한다는 방침이다. 

[관련기사] 손동작 인식 AI 등장...싱가포르 NTU, 호주 UTS 공동개발

[관련기사] "얼굴인식을 막아라"...美 시카코대, 얼굴인식 막는 '클로킹' 기술 개발