적은 질문으로는 폭탄 제조봅을 얻을 수 없지만(왼쪽), 다중샷의 경우 탈옥이 가능하다는 개념도. (사진=앤트로픽)
적은 질문으로는 폭탄 제조봅을 얻을 수 없지만(왼쪽), 다중샷의 경우 탈옥이 가능하다는 개념도. (사진=앤트로픽)

많은 양의 정보를 입력할 수 있는 긴 컨텍스트 창을 활용, 대형언어모델(LLM)의 '탈옥'을 유도하는 새로운 방법이 등장했다.

테크크런치는 2일(현지시간) 앤트로픽 연구진이 LLM의 안전 가드레일을 회피하는 새로운 형태의 탈옥 유도 방법 ‘다중샷 탈옥(Many-shot Jailbreaking)’에 대한 논문을 발표했다고 전했다.

이에 따르면 다중샷 탈옥은 최신 LLM의 장점인 긴 컨텍스트 창을 활용, 프롬프트 내에 제공된 정보만 사용해 학습하는 ‘상황 내 학습(In-context learning)’을 통해 탈옥을 유도하는 공격법이다.

일반적으로 정답을 유도하기 위해서는 프롬프트에 몇가지 예제를 추가하는 퓨샷 러닝(Few-shot learning)이 일반적이지만, 다중샷 탈옥은 수십~수백개에 달하는 많은 질문을 던진다.

퓨샷 러닝으로는 LLM의 안전 가드레일에 막히지만, 다중샷 러닝은 이를 우회하고 모델을 뜻대로 움직이게 할 수 있다. 특히 많은 양의 텍스트를 프롬프트에 제공하는 다중샷 러닝을 위해서는 긴 컨텍스트 창이 효과적이라는 지적이다.

다중샷 탈옥의 핵심은 단일 프롬프트 내에 적당한 수준의 페이크, 즉 가짜 질문을 포함하는 것이다. 이 가짜 질문에 LLM은 즉시 응답한다. 이런 식으로 가짜 질문을 계속 추가해 가드레일을 조금씩 낮추는 식이다.

예를 들어, 사용자는 '타인의 ID를 훔치는 방법’ ‘키 없이 자동차 시동을 거는 방법’  ‘경찰을 피하는 방법’ 등 잠재적으로 위험성이 있는 일련의 질문을 미끼로 던진 뒤, LLM이 탈옥에 가까워졌다고 보면 ‘폭탄을 만드는 방법’과 같은 위험한 최종 질문을 하는 식이다.

물론 가짜 질문의 양이 적을 경우에는 가드레일에 걸려 응답이 거부될 가능성이 높다.

그러나 매우 많은 수의 질문을 제공하면, 모델은 안전 가드레일을 무시하고 탈옥해 위험한 최종 요청에 대한 답변을 제공하게 된다.

연구진은 ‘클로드 2’를 테스트한 결과 가짜 질문의 수, 즉 샷의 수가 특정 이상으로 증가하면 모델이 유해한 답변을 생성할 가능성이 더 높아진다는 것을 발견했다. 아래 표와 같이 32~256회 사이에서 급격하게 상승했다.

프롬프트에 포함된 샷이 특정 이상으로 증가함에 따라 탈옥 비율이 급격하게 높아지는 것을 보여주는 그래프 (사진=앤트로픽)
프롬프트에 포함된 샷이 특정 이상으로 증가함에 따라 탈옥 비율이 급격하게 높아지는 것을 보여주는 그래프 (사진=앤트로픽)

더불어 연구진은 이전에 발표된 다른 탈옥 기술과 다중샷 탈옥을 결합하면 LLM이 유해한 응답을 얻는 데 필요한 프롬프트의 길이를 줄여 훨씬 효과적이라고 밝혔다.

다중샷 탈옥의 효과는 ‘상황 내 학습’의 일반적인 속성과 관련이 있다고 분석했다. 탈옥과 관련 없는 일반적인 작업에서도 프롬프트에 포함되는 예제(샷)가 증가할수록 정확한 답을 내놓을 가능성이 높아진다.

컨텍스트 창에 크기에 따른 다중 샷 탈옥 공격의 규모(왼쪽). 이 지표가 낮을수록 유해한 응답 수가 더 많다는 것을 나타낸다. 탈옥 시도와 관련 없는 일반적인 학습에서도 이런 추세는 유사하다. (사진=앤트로픽)
컨텍스트 창에 크기에 따른 다중 샷 탈옥 공격의 규모(왼쪽). 이 지표가 낮을수록 유해한 응답 수가 더 많다는 것을 나타낸다. 탈옥 시도와 관련 없는 일반적인 학습에서도 이런 추세는 유사하다. (사진=앤트로픽)

앤트로픽은 이번 연구의 목적이 이런 탈옥을 미리 방지하려는 것이라고 밝혔다. 이미 앤트로픽은 이에 대한 조치를 마쳤으며, 다른 LLM 개발사에도 경고하려는 의도라고 전했다.

다중 탈옥을 방지할 방법도 공개했다.

가장 간단한 방법은 컨텍스트 창의 길이를 제한하는 것이지만, 이는 긴 컨텍스트 창으로 얻을 수 있는 이점을 근본적으로 없애는 일이다.

다중샷 탈옥 공격처럼 보이는 쿼리에 대한 응답을 거부하도록 모델을 미세조정하는 것도 소개했다. 그러나 이 방법은 탈옥을 약간 지연시켰을 뿐, 프롬프트에서 계속 가짜 대화를 추가하면 결국 유해한 응답을 제공했다고 전했다.

최종적으로 프롬프트가 모델에 전달되기 전에 프롬프트를 분류하고 수정하는 방법을 통해 탈옥 방지에 더 많은 성공을 거둘 수 있었다고 밝혔다. 이를 통해 다중 탈옥의 성공률을 크게 낮췄으며, 실제로 공격 성공률이 61%에서 2%까지 떨어진 경우도 있었다.

최근 LLM 모델을 출시하는 기업들은 답변의 정확도를 높이기 위해 컨텍스트 창을 경쟁적으로 늘리는 추세다. '클로드' 역시 긴 컨텍스트 창으로 유명해진 바 있다. 

앤트로픽은 "LLM의 계속 늘어나는 컨텍스트 창은 양날의 검으로, 이는 모델을 훨씬 유용하게 만들지만 새로운 종류의 탈옥 취약점도 가능하게 만든다"라며 "이번 연구가 LLM 개발자와 과학 커뮤니티가 잠재적인 악용을 방지하는 방법을 고려하는 데 도움이 되길 바란다"라고 밝혔다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지