보스턴 다이내믹스가 사족보행 로봇 '스팟'를 최신 인공지능(AI) 모델로 업그레이드했다고 밝혔다. 이를 위해 실제 세계를 보고 이해하는 비주얼 언어모델(VLM)을 활용했다고 설명했는데, 이 회사는 최근 AI를 부쩍 강조하고 있다.
보스턴 다이내믹스는 15일(현지시간) 공식 블로그를 통해 '비주얼 파운데이션(Visual Foundation)' 모델을 사용해 스팟이 실제 세계를 이해하는 데 도움을 줬다고 발표했다.
스팟은 내장된 5개의 카메라로 주변의 3D 지도를 생성, 이를 기반으로 이동할 경로를 설정한다. 하지만 기존에는 문제가 있었다고 전했다.
▲와이어나 유리와 같은 물체를 식별하는 것이 어려우며 ▲바퀴 달린 카트 등 겉보기에는 안전하지만 실제로는 위험한 물체를 구분하기 어려우며 ▲3D 데이터로는 안정적으로 보이지만 쉽게 깨지거나 비싼 물체를 가려낼 수 없으며 ▲사다리 아래와 같이 잠재적인 위험을 구별하는 것 등이 어렵다는 설명이다.
이 때문에 이 회사는 머신러닝을 통해 로봇 지능의 경계를 확장하는 테스트를 진행했으며, 특히 비주얼 모델로 이런 문제를 해결하는 방법을 찾았다고 밝혔다.
파운데이션 모델을 구축하기 위해 기존의 몇가지 비주얼 모델을 테스트, 객체 감지 모델을 구축했다고 전했다. 이 모델은 이미지는 물론 텍스트까지 이해하는 멀티모달모델이라고 소개했다.
또 모델이 학습한 지식을 통해 이미지나 짧은 텍스트 설명을 제공하기만 하면 새로운 환경과 맞춤형 위험에 대한 인식을 빠르게 적용할 수 있다고 밝혔다.
테스트에서는 로봇이 주변 인식에 너무 많은 시간을 소모하지 않고 실시간을 반응하도록 유도하기 위해 파이프라인을 효율화하는 데 집중했다고 전했다. 즉, 주변 위험을 안정적으로 감지할 만큼 강력하지만 효율적으로 실행할 만큼 미세조정에 집중했다.
그 결과 스팟은 움직이는 물체나 전선, 사다리 등 산업 환경에서 흔히 등장하는 위험을 감지하고 피할 수 있게 됐다고 밝혔다.
마이클 맥도널드 스팟 팀 로봇 엔지니어 등은 "이번 업데이트는 더욱 유능한 모델을 훈련하기 위한 첫번쨰 단계로, 향후 스팟을 통해 수집한 데이터를 통해 모델을 지속적으로 미세조정하겠다"라고 말했다.
또 이 회사는 지난달 토요타 연구소(TRI)와 제휴, 휴머노이드 '아틀라스'에 AI 두뇌를 도입한다고 발표한 바 있다.
이처럼 보스턴 다이내믹스는 그동안 아크로바틱한 움직임 등 하드웨어에 비해 비교적 덜 주목받던 AI 및 소프트웨어 분야의 강조에 나선 것으로 볼 수 있다.
임대준 기자 ydj@aitimes.com
