많은 양의 정보를 입력할 수 있는 긴 컨텍스트 창을 활용, 대형언어모델(LLM)의 '탈옥'을 유도하는 새로운 방법이 등장했다.
테크크런치는 2일(현지시간) 앤트로픽 연구진이 LLM의 안전 가드레일을 회피하는 새로운 형태의 탈옥 유도 방법 ‘다중샷 탈옥(Many-shot Jailbreaking)’에 대한 논문을 발표했다고 전했다.
이에 따르면 다중샷 탈옥은 최신 LLM의 장점인 긴 컨텍스트 창을 활용, 프롬프트 내에 제공된 정보만 사용해 학습하는 ‘상황 내 학습(In-context learning)’을 통해 탈옥을 유도하는 공격법이다.
일반적으로 정답을 유도하기 위해서는 프롬프트에 몇가지 예제를 추가하는 퓨샷 러닝(Few-shot learning)이 일반적이지만, 다중샷 탈옥은 수십~수백개에 달하는 많은 질문을 던진다.
퓨샷 러닝으로는 LLM의 안전 가드레일에 막히지만, 다중샷 러닝은 이를 우회하고 모델을 뜻대로 움직이게 할 수 있다. 특히 많은 양의 텍스트를 프롬프트에 제공하는 다중샷 러닝을 위해서는 긴 컨텍스트 창이 효과적이라는 지적이다.
다중샷 탈옥의 핵심은 단일 프롬프트 내에 적당한 수준의 페이크, 즉 가짜 질문을 포함하는 것이다. 이 가짜 질문에 LLM은 즉시 응답한다. 이런 식으로 가짜 질문을 계속 추가해 가드레일을 조금씩 낮추는 식이다.
예를 들어, 사용자는 '타인의 ID를 훔치는 방법’ ‘키 없이 자동차 시동을 거는 방법’ ‘경찰을 피하는 방법’ 등 잠재적으로 위험성이 있는 일련의 질문을 미끼로 던진 뒤, LLM이 탈옥에 가까워졌다고 보면 ‘폭탄을 만드는 방법’과 같은 위험한 최종 질문을 하는 식이다.
물론 가짜 질문의 양이 적을 경우에는 가드레일에 걸려 응답이 거부될 가능성이 높다.
그러나 매우 많은 수의 질문을 제공하면, 모델은 안전 가드레일을 무시하고 탈옥해 위험한 최종 요청에 대한 답변을 제공하게 된다.
연구진은 ‘클로드 2’를 테스트한 결과 가짜 질문의 수, 즉 샷의 수가 특정 이상으로 증가하면 모델이 유해한 답변을 생성할 가능성이 더 높아진다는 것을 발견했다. 아래 표와 같이 32~256회 사이에서 급격하게 상승했다.
더불어 연구진은 이전에 발표된 다른 탈옥 기술과 다중샷 탈옥을 결합하면 LLM이 유해한 응답을 얻는 데 필요한 프롬프트의 길이를 줄여 훨씬 효과적이라고 밝혔다.
다중샷 탈옥의 효과는 ‘상황 내 학습’의 일반적인 속성과 관련이 있다고 분석했다. 탈옥과 관련 없는 일반적인 작업에서도 프롬프트에 포함되는 예제(샷)가 증가할수록 정확한 답을 내놓을 가능성이 높아진다.
앤트로픽은 이번 연구의 목적이 이런 탈옥을 미리 방지하려는 것이라고 밝혔다. 이미 앤트로픽은 이에 대한 조치를 마쳤으며, 다른 LLM 개발사에도 경고하려는 의도라고 전했다.
다중 탈옥을 방지할 방법도 공개했다.
가장 간단한 방법은 컨텍스트 창의 길이를 제한하는 것이지만, 이는 긴 컨텍스트 창으로 얻을 수 있는 이점을 근본적으로 없애는 일이다.
다중샷 탈옥 공격처럼 보이는 쿼리에 대한 응답을 거부하도록 모델을 미세조정하는 것도 소개했다. 그러나 이 방법은 탈옥을 약간 지연시켰을 뿐, 프롬프트에서 계속 가짜 대화를 추가하면 결국 유해한 응답을 제공했다고 전했다.
최종적으로 프롬프트가 모델에 전달되기 전에 프롬프트를 분류하고 수정하는 방법을 통해 탈옥 방지에 더 많은 성공을 거둘 수 있었다고 밝혔다. 이를 통해 다중 탈옥의 성공률을 크게 낮췄으며, 실제로 공격 성공률이 61%에서 2%까지 떨어진 경우도 있었다.
최근 LLM 모델을 출시하는 기업들은 답변의 정확도를 높이기 위해 컨텍스트 창을 경쟁적으로 늘리는 추세다. '클로드' 역시 긴 컨텍스트 창으로 유명해진 바 있다.
앤트로픽은 "LLM의 계속 늘어나는 컨텍스트 창은 양날의 검으로, 이는 모델을 훨씬 유용하게 만들지만 새로운 종류의 탈옥 취약점도 가능하게 만든다"라며 "이번 연구가 LLM 개발자와 과학 커뮤니티가 잠재적인 악용을 방지하는 방법을 고려하는 데 도움이 되길 바란다"라고 밝혔다.
박찬 기자 cpark@aitimes.com
- 가드레일 없어도 헛소리 안 하는 '시스템 프롬프트 준수' LLM 등장
- 아스키 아트로 챗봇 탈옥시키는 ‘아트프롬프트’ 등장
- LLM에서 위험 지식 제거하는 '마인드 와이프' 기술 등장
- '인간을 설득하는 AI' 경고..."챗봇과 상호작용에 주의 필요"
- MS "탈옥법 '스켈레톤 키'로 GPT-4 이외 대부분 모델 가드레일 뚫어"
- 제미나이, 사용자에 "죽어 버려" 폭언...의도 없이도 자발적 탈옥
- 트럼프 호텔 사이버트럭 폭파 사건에 '챗GPT' 활용..."미국 첫 AI 활용 폭파 범죄"
- 앤트로픽, 탈옥 방지 도구 '헌법 분류기' 공개..."탈옥 95% 차단"
