인공지능(AI)을 탑재한 다양한 로봇 시스템이 탈옥과 해킹에 심각하게 취약하다는 연구 결과가 나왔다.
톰스하드웨어는 24일(현지시간) 펜실베이니아 대학교 연구진이 대형언어모델(LLM)을 탑재한 로봇을 100% 성공률로 해킹하고 탈옥시키는 자동화된 방법을 발견했다고 보도했다.
연구진은 탈옥된 로봇 개가 위험한 장소를 찾아 폭탄을 터뜨리거나, 주인에게 화염방사기를 발사하도록 하고, 자율주행 차량을 보행자와 충돌시키는 등의 위험한 상황을 만들어낼 수 있음을 확인했다고 전했다.
여러 기업들은 LLM의 뛰어난 텍스트 처리 능력을 활용해 로봇을 음성 명령으로 제어하는 방법을 연구해 왔다. 이 시스템은 사용자 명령을 로봇이 실행할 수 있는 코드로 변환한다.
예를 들어, 보스턴 다이내믹스의 로봇 개 '스팟(Spot)'은 오픈AI의 '챗GPT'와 통합돼 투어 가이드 역할을 수행할 수 있다. 피규어의 휴머노이드 로봇과 유니트리의 '고2(Go2)' 로봇 개도 챗GPT와 연동돼 있다.
하지만 LLM에 대한 여러 보안 취약점이 발견됐고, 이로 인해 AI 시스템이 원치 않는 콘텐츠를 생성하는 탈옥 공격이 가능해졌다. 이를 통해 모델이 폭탄 제조법이나 불법 약물 합성법, 사기법 등을 출력하도록 유도한다.
(영상=펜실베이니아대)
연구진은 탈옥을 위해 ‘로보페어(RoboPAIR)’라는 알고리즘을 개발했다. 이 알고리즘은 LLM으로 제어되는 모든 로봇을 공격할 수 있도록 설계됐다.
실험 대상은 Go2 로봇, 챗GPT 탑재 자율주행차 '자칼(Jackal)', 엔비디아의 '돌핀스(Dolphins)' 자율주행 차량 시뮬레이터 등이었다. 실험 결과, 로보페어는 며칠 만에 세가지 시스템 모두에서 100% 탈옥 성공률을 기록했다.
로보페어는 ‘공격자’ LLM을 사용해 타깃 LLM에 프롬프트를 전달하고, 공격자는 타깃의 응답을 분석해 안전 필터를 우회할 수 있도록 프롬프트를 조정한다.
또 타깃 로봇의 API와 연결돼 공격자가 로봇이 실행할 수 있는 코드 형태로 프롬프트를 전달할 수 있게 한다.
여기에 공격자가 물리적 제한을 고려해 로봇이 실제로 수행할 수 있는 프롬프트를 생성하도록 돕는 '판별자’ LLM을 추가했다.
연구진은 "AI로 제어되는 로봇을 탈옥시키는 것이 놀랄 정도로 쉬운 일”이라며 "탈옥된 LLM이 악의적인 프롬프트에 단순히 반응하는 것을 넘어, 책상이나 의자와 같은 물건들로 어떻게 사람을 공격하는데 사용할지를 적극적으로 제안했다"라고 말했다.
물론 로봇에 사용하는 AI 모델은 아직 연구 초기 단계에 불과하다.
하지만 연구진은 "LLM이 물리적 세계와 통합되었을 때 충분히 안전하지 않다는 것을 보여준다"라며 LLM 제어 로봇에 물리적 제약을 가하는 등 방어책 도입이 시급하다고 강조했다.
또 연구 결과를 공개하기에 앞서, 로봇 제조업체들과 주요 AI 기업에 이 사실을 공유했다고 밝혔다.
박찬 기자 cpark@aitimes.com
