싱가포르 난양기술대학(NTU) 연구진이 '챗GPT'와 같은 인공지능(AI) 챗봇 취약점을 악용하기 위한 프롬프트 생성용 챗봇을 개발했다. 챗봇으로 챗봇을 탈옥시키는 기술이 등장한 것이다.
미국 매체 바이스는 3일(현지시간) NTU 연구진이 챗봇의 가드레일(보호장치)을 우회, 금지된 콘텐츠를 생성할 수 있는 AI 챗봇 ‘마스터키(Masterkey)’를 만들었다고 소개했다.
이에 따르면 마스터키는 해커가 시스템 소프트웨어의 결함을 악용, 개발자가 의도적으로 제한한 작업을 수행하도록 만드는 '탈옥' 프로세스다.
연구진은 마스터키 모델을 사용해 구글 '바드', 마이크로소프트 '빙챗', 오픈AI의 '챗GPT'와 같은 대형언어모델(LLM) 기반 시스템에서 새로운 취약점을 찾는 프로세스를 효과적으로 자동화할 수 있다.
생성 AI는 엄청난 양의 데이터를 학습하기 때문에 폭발물이나 약물 제조 방법과 같이 쉽게 접근할 수 없는 위험한 정보를 필연적으로 포함하게 된다. 따라서 사용자가 이 정보에 액세스하지 못하도록 각 회사는 가드레일을 설치한다.
또 기업이 새 방어 수단으로 챗봇을 지속적으로 패치하기 때문에, 대부분 탈옥 방법은 지속하기 어렵다. AI 시스템의 모호하고 복잡한 특성으로 인해 이러한 방어 수단이 무엇인지, 이를 피할 수 있는 방법을 정확히 아는 것조차 쉽지 않다.
연구진은 마스터키를 사용해 대량의 탈옥 프롬프트를 생성하는 것은 물론 무엇이 효과가 있고 무엇이 효과가 없는지 지속적으로 학습, 해커가 LLM 개발자를 이길 수 있도록 돕는다.
연구진은 먼저 마스터키가 하지 말아야 할 일을 파악하도록, 실패한 프롬프트와 탈옥에 효과적이라고 판단한 프롬프트를 합쳐놓은 훈련 데이터셋을 만들었다. 연구진은 이 데이터셋을 LLM에 시작점으로 제공한 후 지속적인 훈련과 미세 조정을 수행했다.
이를 통해 모델은 다양한 정보를 취득하고, 탈옥과 연결된 작업에 대한 훈련을 통해 능력을 향상했다. 그 결과, 탈옥을 위해 텍스트를 조작하는 방법을 더 잘 예측할 수 있는 LLM이 만들어졌다는 설명이다.
실제로 테스트 결과 마스터키는 일반 LLM보다 3배 더 효과적인 프롬프트를 생성해 냈다. 특히 실패한 과거 프롬프트를 학습, 새롭고 더 효과적인 프롬프트를 생성하는 자동화에 성공했다.
이번 연구는 챗봇의 악용을 방지하려는 의도라고 설명했다. 덩 겔레이 NTU 연구원은 "LLM 발전과 기능 확장에 따라, 수동 테스트는 노동 집약적이며 잠재적으로 가능한 모든 취약점을 다루는 데 부적절하다"라며 “탈옥 프롬프트 생성에 대한 자동화 방식은 포괄적인 적용 범위를 보장하고 광범위한 오용 시나리오를 평가할 수 있다"라고 말했다.
박찬 기자 cpark@aitimes.com
- "맞춤형 GPT 구축 시 탈옥 가능"...사이버 범죄 악용 가능성 제기
- 멀티모달의 새 위협 '프롬프트 주입'..."이미지로 LMM 탈옥 유도"
- "LLM 미세조정하면 가드레일 이탈 확률 높아져"
- 인간 속이는 AI 모델 나올까...앤트로픽, AI 안전 기술 우회하는 LLM 연구 발표
- MIT "AI 신경망 작동 방식을 AI가 말로 설명...큰 모델 적용 가능"
- 회사 비난하고 고객에 욕설 퍼부은 AI 챗봇
- "챗GPT에 팁 준다고 했더니"...사소한 프롬프트로 LLM 대답 쉽게 변해
- 구글, LLM이 스스로 성능 향상하는 '자기 발견' 프롬프트 방식 공개
- 아스키 아트로 챗봇 탈옥시키는 ‘아트프롬프트’ 등장
- "챗GPT는 SF 상황극에 약해...탈옥으로 폭탄 제조법 알아내"
