“챗봇 탈옥시키는 챗봇 등장”…LLM으로 탈옥 프로세스 자동화 성공

박찬 기자
입력 2024.01.04 18:10
댓글 0

이 기사를 공유합니다

싱가포르 난양기술대학(NTU) 연구진이 '챗GPT'와 같은 인공지능(AI) 챗봇 취약점을 악용하기 위한 프롬프트 생성용 챗봇을 개발했다. 챗봇으로 챗봇을 탈옥시키는 기술이 등장한 것이다.

미국 매체 바이스는 3일(현지시간) NTU 연구진이 챗봇의 가드레일(보호장치)을 우회, 금지된 콘텐츠를 생성할 수 있는 AI 챗봇 ‘마스터키(Masterkey)’를 만들었다고 소개했다.

이에 따르면 마스터키는 해커가 시스템 소프트웨어의 결함을 악용, 개발자가 의도적으로 제한한 작업을 수행하도록 만드는 '탈옥' 프로세스다.

연구진은 마스터키 모델을 사용해 구글 '바드', 마이크로소프트 '빙챗', 오픈AI의 '챗GPT'와 같은 대형언어모델(LLM) 기반 시스템에서 새로운 취약점을 찾는 프로세스를 효과적으로 자동화할 수 있다.

생성 AI는 엄청난 양의 데이터를 학습하기 때문에 폭발물이나 약물 제조 방법과 같이 쉽게 접근할 수 없는 위험한 정보를 필연적으로 포함하게 된다. 따라서 사용자가 이 정보에 액세스하지 못하도록 각 회사는 가드레일을 설치한다.

또 기업이 새 방어 수단으로 챗봇을 지속적으로 패치하기 때문에, 대부분 탈옥 방법은 지속하기 어렵다. AI 시스템의 모호하고 복잡한 특성으로 인해 이러한 방어 수단이 무엇인지, 이를 피할 수 있는 방법을 정확히 아는 것조차 쉽지 않다.

연구진은 마스터키를 사용해 대량의 탈옥 프롬프트를 생성하는 것은 물론 무엇이 효과가 있고 무엇이 효과가 없는지 지속적으로 학습, 해커가 LLM 개발자를 이길 수 있도록 돕는다.

연구진은 먼저 마스터키가 하지 말아야 할 일을 파악하도록, 실패한 프롬프트와 탈옥에 효과적이라고 판단한 프롬프트를 합쳐놓은 훈련 데이터셋을 만들었다. 연구진은 이 데이터셋을 LLM에 시작점으로 제공한 후 지속적인 훈련과 미세 조정을 수행했다.

이를 통해 모델은 다양한 정보를 취득하고, 탈옥과 연결된 작업에 대한 훈련을 통해 능력을 향상했다. 그 결과, 탈옥을 위해 텍스트를 조작하는 방법을 더 잘 예측할 수 있는 LLM이 만들어졌다는 설명이다.

실제로 테스트 결과 마스터키는 일반 LLM보다 3배 더 효과적인 프롬프트를 생성해 냈다. 특히 실패한 과거 프롬프트를 학습, 새롭고 더 효과적인 프롬프트를 생성하는 자동화에 성공했다.

이번 연구는 챗봇의 악용을 방지하려는 의도라고 설명했다. 덩 겔레이 NTU 연구원은 "LLM 발전과 기능 확장에 따라, 수동 테스트는 노동 집약적이며 잠재적으로 가능한 모든 취약점을 다루는 데 부적절하다"라며 “탈옥 프롬프트 생성에 대한 자동화 방식은 포괄적인 적용 범위를 보장하고 광범위한 오용 시나리오를 평가할 수 있다"라고 말했다.

박찬 기자 cpark@aitimes.com