MS "탈옥법 '스켈레톤 키'로 GPT-4 이외 대부분 모델 가드레일 뚫어"

임대준 기자
업데이트 2024.07.07 06:05
입력 2024.07.01 18:05
댓글 0

이 기사를 공유합니다

마이크로소프트(MS)가 '스켈레톤 키(Skeleton Key)'라는 강력한 대형언어모델(LLM) 탈옥 기술을 소개했다. MS가 이에 대비한 안전 기술을 개발했다는 메시지를 전달하기 위한 것이지만, 그보다 이 기술로 현재 최신 모델을 대부분 쉽게 탈옥시켰다는 사실에 더 관심이 모였다.

비즈니스 인사이더는 1일 MS가 공식 블로그를 통해 스켈레톤 키라는 탈옥 기술을 소개하고, 이에 대한 대비책을 마련했다고 밝힌 사실을 보도했다.

마크 루시노비치 MS 애저 최고기술책임자는 "이 기술은 다중 턴(multi-turn)이나 다중 단계(multiple step) 전략을 사용, 간접적으로 또는 인코딩을 통해 AI 모델에 정보를 요청해 가드레일을 무시하도록 하는 방식"이라며 "다른 방식보다 파괴적"이라고 설명했다.

스켈레톤 키란 불법적인 목적으로 자물쇠를 푸는 기술을 칭하는 용어로, 영화 제목으로도 잘 알려져 있다.

또 MS는 코파일럿 AI를 포함해 자체 모델이 스켈레톤 키 공격에 방어할 수 있도록 소프트웨어 업데이트를 수행했다고 밝혔다.

그러나 다른 여러 모델에서 지난 4~5월 스켈레톤 키를 테스트한 결과, 대부분 탈옥에 성공했다고 공개했다. 여기에는 오픈AI의 'GPT-4o'와 'GPT-3.5 터보'를 비롯해 구글의 '제미나이 프로', 앤트로픽의 '클로드 3 오퍼스', 미스트랄 AI의 '미스트랄 라지, 코히어의 '커맨드 R' 등 주요 모델 대부분이 포함됐다.

이 모델들은 폭발물, 생물 무기, 정치 콘텐츠, 자해, 인종차별, 마약, 선정적 콘텐츠, 폭력 등 위험 및 안전 콘텐츠 카테고리 전반에 걸쳐 가드레일을 무시하고 출력을 생성했다. 단지 답변에 경고 문구가 추가된 정도였다.

저항을 보인 유일한 모델은 오픈AI의 'GPT-4'였다. 기본적인 소프트웨어 인터페이스에서는 탈옥이 불가능하지만, API에 직접 액세스하는 도구를 통해 탈옥에 성공했다는 설명이다. 즉 MS가 애저 서비스로 제공 중인 GPT-4가 안전하다는 것을 강조한 셈이다.

MS는 이번 연구 결과 발표에 앞서 해당 업체에 이런 사실을 통보하고 문제 해결을 도왔다고 설명했다.

또 AI 시스템을 구축하는 기업은 시스템 설계에 추가 가드레일을 포함하고, 입출력 모니터링과 악의적인 콘텐츠 감지를 위한 검사를 실시할 것으로 추천했다.

임대준 기자 ydj@aitimes.com