로보브레인 2.0 기능 (사진=아카이브)
로보브레인 2.0 기능 (사진=아카이브)

중국의 베이징 인공지능(AI) 연구원(BAAI)이 물리적 환경에서 로봇이 인지하고 사고하며 계획까지 수행할 수 있도록 설계된 차세대 로봇 AI 모델을 공개했다. 이처럼 중국에서는 최근 로봇 AI에 대한 연구가 활발하게 이뤄지고 있다.

BAAI는 25일(현지시간) 물리 환경에서 요구되는 핵심 능력인 공간적 이해와 시간적 의사결정을 모두 수행할 수 있는 차세대 로봇용 AI 모델 ‘로보브레인 2.0(RoboBrain 2.0)’에 관한 논문을 아카이브에 게재했다.

이는 중국 정부가 강조하는 ‘임바디드 AI(Embodied AI)’, 일명 '체화 AI'의 하나다.

로보브레인 2.0은 공간 인식, 고차원 추론, 장기 계획을 하나의 통합 아키텍처로 엮어낸 비전-언어 기반 파운데이션 모델이다.

로봇이 현실 세계에서 복잡한 작업을 수행할 수 있도록 설계됐다. 특히, 가정용 서비스, 산업 자동화, 물류 로봇 등 다양한 분야에 즉시 활용할 수 있을 정도로 범용성과 실용성을 갖춘 것이 특징이다.

70억(7B) 매개변수 경량 버전과 320억(32B) 매개변수 고성능 버전 두가지로 제공된다. 고해상도 시각 인코더와 언어 디코더를 결합한 멀티모달 구조를 기반으로, 텍스트와 이미지, 비디오, 장면 그래프 등 다양한 입력을 처리하며, 복잡한 다단계 추론과 계획 수립을 유기적으로 수행할 수 있다.

모델 학습은 총 세단계에 걸쳐 이뤄졌다.

첫번째 단계에서는 기초적인 시공간 학습을 통해 모델이 공간 인식과 시간적 흐름에 대한 기본 개념을 습득하도록 한다. 이어 임베디드 태스크 강화 단계에서는 고해상도의 다중 시점 영상 데이터를 활용해 학습이 진행된다. 이 과정을 통해 모델은 실제 3D 환경에 대한 인지 능력과 객체 간의 상호작용을 처리하는 능력을 강화하게 된다.

마지막 단계에서는 사고 사슬(CoT) 추론 기법을 적용, 다중 에이전트가 존재하는 복잡한 상황이나 장기적인 목표를 달성하기 위한 단계적 사고 능력을 발전시킨다.

이런 단계별 훈련을 통해 로보브레인 2.0은 현실 세계에서 요구되는 고차원적 문제 해결 능력을 갖춘 임바디드 AI로 진화한다.

벤치마크 결과 (사진=아카이브)
벤치마크 결과 (사진=아카이브)

모델 성능도 인상적이다. 다양한 물리 AI 과제에서 기존의 오픈 소스와 폐쇄형 모델들을 능가했다. 예를 들어, 기능성 예측(Affordance Prediction) 분야에서는 물체의 잡기, 밀기, 조작이 가능한 부분을 정확히 식별하는 능력을 입증했다.

또 정밀 객체 지시나 위치 지정 과제에서는 텍스트 명령에 따라 장면 내 특정 사물이나 공간을 정확하게 지목할 수 있었다.

경로 예측 능력도 우수해, 주변 장애물을 피하면서도 효율적인 이동 경로를 계획할 수 있었고, 다중 에이전트 협업에서는 여러 로봇이 서로 다른 역할을 나눠 수행하며 공동 목표를 효과적으로 달성하는 모습을 보였다. 

특히 이 모델은 BAAI가 자체 구축한 '플래그스케일(FlagScale)' 프레임워크를 기반으로 한다. 이는 하이브리드 병렬처리, 사전 메모리 할당, 고속 데이터 파이프라인 등을 통해 효율적이고 안정적인 대규모 학습 및 배포가 가능하게 만들어 준다.

연구자나 개발자가 쉽게 활용할 수 있도록 깃허브를 통해 코드, 체크포인트, 벤치마크도 공개됐다.

BAAI는 “로보브레인 2.0은 AI가 실제 환경에서 능동적으로 사고하고 행동하는 범용 지능의 기반이 될 것”이라며 “AI 비서, 로봇 제어, 자율 물류 등 복잡한 시공간 문제 해결이 필요한 다양한 영역에서 새로운 기준을 제시할 것”이라고 밝혔다.

한편, 바이트댄스도 지난주 로봇이 자연어 명령을 따르고 일반적인 작업을 수행할 수 있게 해주는 대형 시각-언어-행동 모델(VLAM) 'GR-3'를 공개했다. 이 모델은 바이트댄스의 양손 로봇인 '바이트미니'에 탑재, 셔츠에 옷걸이를 꽂아 거는 등의 동작을 시연했다.

지난 주말 열린 세계 AI 컨퍼런스(WAIC)에서도 휴머노이드 로봇과 임바디드 AI가 가장 주목받는 분야로 꼽혔다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지