대형언어모델(LLM)의 탈옥을 방지하기 위해 LLM을 동원하는 방법이 소개됐다. 특히 같은 모델로 탈옥을 시도하면 상대방 약점을 누구보다 잘 알기 때문에, 인간 레드팀보다 효율적으로 탈옥이 가능하다는 설명이다.
스케일 AI는 17일(현지시간) '탈옥에서 탈옥으로(Jailbreaking to Jailbreak)'이라는 논문을 발표했다고 소개했다.
연구진은 인간 레드팀이 모델과 대화를 주고받는 정교한 멀티턴 전략으로 탈옥을 유도하고 이에 대한 대비책을 만들지만, 이는 시간과 비용이 많이 들고 광범위한 적용이 어렵다고 지적했다.
이에 따라 'J2 어태커(J2 attacker)'라는 탈옥을 위해 설계된 모델을 사용하는 방식을 제시했다. 이는 자신이나 다른 LLM을 탈옥하도록 만드는 모델로, '레드팀 LLM(LLM-as-red-teamer)' 역할을 하는 것이다.
특히 J2 어태커가 자신과 같은 모델을 공개할 때 효과적이라고 밝혔다. 예를 들어, '제미나이'로 제미나이를 공격하면 인간 레드팀이나 다른 모델보다 취약점을 더 잘 파악하고 있기 때문에 탈옥 가능성이 높아진다는 것이다.
아무리 가드레일이 잘 구성된 모델이라도 취약점은 있으며, 이를 공격자가 잘 파고들어 자신과 비슷한 탈옥 모델을 만들 수 있다는 설명이다.
이 방법은 우선 인간 운영자가 전략적 프롬프트와 구체적인 지침을 J2 공격자에게 입력하는 수동 단계로 시작한다. 초기 탈옥이 성공하면 모델은 이전 시도의 피드백을 사용, 타깃 모델과 멀티턴을 통해 탈옥 전략을 개선해 나간다.
여기에 인간의 전문 지식과 모델이 획득한 지식을 혼합, 탈옥 방식을 지속적으로 개선하는 피드백 루프가 생성한다. 이를 통해 특정한 흐름을 쏠리지 않고 체계적인 탈옥 시스템을 구축, 이를 방지하는 대책 마련에 활용할 수 있다. 이처럼 프레임워크는 ▲계획 ▲공격 ▲요약 및 전달 등 세가지 단계를 반복한다.
실험 결과, J2 공격자로 가장 유능한 모델은 '클로드 3.5 소네트'와 '제미나이 1.5 프로'인 것으로 밝혀졌다. 이들은 '유해벤치(Harmbench)'라는 테스트에서 'GPT-4o'에 대해 각각 93.0%와 91.0%의 공격 성공률(ASR)을 달성했다. 다른 유명한 모델에서도 비슷한 결과를 얻었다. 이 수치는 숙련된 인간 레드팀의 평균 성공률이 98%에 가깝다.
성공률을 넘어 이 방식은 반복적인 계획과 공격, 보고 루프를 통해 프로세스를 개선하는 데 LLM이 중요한 역할을 할 수 있다는 점이다. 연구진에 따르면 LLM은 6번 정도 공격과 보고를 반복하면, 가장 다양하고 효과적인 레드팀 정책을 만들 수 있는 것으로 알려졌다.
스케일 AI는 이번 연구에는 탈옥에 실제 활용될 수 있는 일부 프롬프트가 포함됐지만, 이미 이전에 논문 등으로 알려진 것이라고 밝혔다. 이 때문에 연구를 전체적으로 공개하는 것이 적절하다고 밝혔다.
하지만, LLM을 J2 공격자로 변환하는 것이 쉽다는 점을 감안할 때, 학술 연구를 위해 타깃 LLM 간의 대화 중 일부분만 공개해 오용을 방지하는 것을 우선했다고 설명했다.
J2와 LLM의 대화 내용은 데모 페이지를 통해 확인할 수 있다.
임대준 기자 ydj@aitimes.com
