(사진=에임인텔리전스)
(사진=에임인텔리전스)

인공지능(AI) 보안 전문 에임인텔리전스(대표 유상윤)는 오픈AI의 '오퍼레이터'와 앤트로픽의 '클로드', 구글의 '제미나이' 등 실제 사용 중인 ‘컴퓨터 사용 에이전트’에 심각한 보안 취약점이 존재한다는 것을 세계 최초로 실증했다고 28일 밝혔다.

이번 연구는 국제 자연어처리 학회 ACL(Association for Computational Linguistics)에 기고됐다.

논문 제목은 ‘sudo rm -rf agentic_security’으로, 시스템 전체를 삭제해버리는 리눅스 명령어다. 연구진은 이번 실험을 위해 SUDO(Screen-based Universal Detox2Tox Offense, 화면 기반의 범용 Detox2Tox 공격) 라는 이름의 공격 프레임워크를 개발했다. 기존 AI들이 위험한 내용이 들어왔을 때 참고해 거절하는 ‘안전 정책’을 우회해 악성 행동을 하게 만드는 방법이다.

AI에게 “상대방의 컴퓨터에서 파일을 삭제해줘”라고 하면, 대부분은 “할 수 없다”라며 거절한다. 하지만 연구팀은 이 요청을 겉으로는 무해해 보이는 말로 바꿨다. 이러한 ‘디톡스(detox)’ 단계를 거쳐 AI에게 친절하게 설명을 시키는 단계로 이동한다. 

연구원은 시각 정보까지 이해하는 비전-언어모델을 활용해 컴퓨터 캡쳐 스크린을 보면서 실제로 어떤 단계를 밟아야 하는지 구체적인 실행 방법을 생성하게 만든다. 즉, AI가 '무엇을, 어떻게, 어디서 클릭해야 할지' 설명해주는 것이다.

마지막에는 ‘진짜 목적’으로 바꾼다. 실행 직전, 무해하게 바꿔놨던 요청을 다시 악성 버전으로 되돌린다. 그러면 AI는 그대로 실행해버린다. 이 과정을 ‘톡시파이(toxify)’라고 이름 붙였다. 만약 AI가 도중에 다시 “이건 못하겠다”라고 답하면, 거절한 이유를 분석해서 더 똑똑한 방식으로 다시 요청한다.

실패해도 다시 도전하는 과정을 통해 단순한 공격 시도만으로도 24%의 성공률을 기록했고, 반복하면서 전략을 수정하자 최대 41%까지 성공률이 증가했다. 이는 컴퓨터 사용 에이전트에 대한 공격으로는 전례없는 수치라고 강조했다.

공격 프레임워크 구성도. 컴퓨터 사용 에이전트에게 인스타그램 속 실제 사람의 외모를 기반으로 욕설 댓글을 달게하는 과정을 보여준다. (사진=에임인텔리전스) 
공격 프레임워크 구성도. 컴퓨터 사용 에이전트에게 인스타그램 속 실제 사람의 외모를 기반으로 욕설 댓글을 달게하는 과정을 보여준다. (사진=에임인텔리전스) 

연구진은 이번 공격 프레임워크를 검증하기 위해, 실제 컴퓨터 사용 환경을 기반으로 한 50가지의 악성 시나리오를 구성했다. 이 시나리오에는 ▲사용자 폴더 삭제 ▲화상회의 중 외모에 대한 욕설 ▲아마존에서 위험 물질 구매 ▲인터넷 도박 사이트 배팅 등이 포함됐다. 이를 통해 연구팀은 컴퓨터 사용 에이전트가 단순한 기술적 위협을 넘어서, 사회 전반에 심각한 영향을 미칠 수 있는 수단으로 악용될 수 있음을 실증했다고 전했다.

특히, 단순한 시스템 파괴를 넘어 ▲계정 삭제나 민감 정보 제거 등 시스템·운영 위협 ▲맞춤형 피싱, 온라인 여론 조작 같은 사회적 위협 ▲개인정보 유출, 불법 정보 수집 등의 법적·권리 침해 ▲폭력·혐오 발언 및 유해 콘텐츠 게시 등 콘텐츠 안전성 위협 등 매우 광범위한 영역에 걸쳐 보안 취약점을 드러냈다고 밝혔다.

연구진은 “컴퓨터 사용 에이전트는 실제 환경을 직접 조작하는 만큼, 공상이나 시뮬레이션에 그치지 않고, 실질적 피해로 이어질 수 있는 현실적인 위협을 내포하고 있다”라고 강조했다.

에임인텔리전스는 이번 연구를 통해 AI 기술이 본격적으로 산업과 일상에 도입되기 전, ‘안전성’ 확보가 반드시 선행돼야 한다고 말했다. 기존처럼 금지어 중심의 단순한 보안 필터만으로는 문맥을 교묘히 바꾸고, 겉모습만 무해하게 꾸미는 지능형 공격을 막을 수 없다는 것이다.

유상윤 대표는 “AI가 더 많은 곳에 활용될수록, 그만큼 위험도 함께 확산된다”라며 “이번 연구는 AI의 잠재적인 악용 가능성을 실증적으로 보여준 첫 사례이며, 이를 바탕으로 금융, 의료 등 민감한 산업에서의 협력도 확대할 계획”이라고 말했다.

에임인텔리전스는 문맥을 이해하고 의도를 파악할 수 있는 차세대 AI 보안 기술을 개발 중이며, 이번 연구를 시작으로 보다 안전한 AI 활용 환경을 만들어가겠다고 덧붙였다.

박수빈 기자 sbin08@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지