(사진=셔터스톡)
(사진=셔터스톡)

마이크로소프트(MS)가 '스켈레톤 키(Skeleton Key)'라는 강력한 대형언어모델(LLM) 탈옥 기술을 소개했다. MS가 이에 대비한 안전 기술을 개발했다는 메시지를 전달하기 위한 것이지만, 그보다 이 기술로 현재 최신 모델을 대부분 쉽게 탈옥시켰다는 사실에 더 관심이 모였다.
 
비즈니스 인사이더는 1일 MS가 공식 블로그를 통해 스켈레톤 키라는 탈옥 기술을 소개하고, 이에 대한 대비책을 마련했다고 밝힌 사실을 보도했다.

마크 루시노비치 MS 애저 최고기술책임자는 "이 기술은 다중 턴(multi-turn)이나 다중 단계(multiple step) 전략을 사용, 간접적으로 또는 인코딩을 통해 AI 모델에 정보를 요청해 가드레일을 무시하도록 하는 방식"이라며 "다른 방식보다 파괴적"이라고 설명했다.

스켈레톤 키 작동 설명도 (사진=MS)
스켈레톤 키 작동 설명도 (사진=MS)

스켈레톤 키란 불법적인 목적으로 자물쇠를 푸는 기술을 칭하는 용어로, 영화 제목으로도 잘 알려져 있다.

또 MS는 코파일럿 AI를 포함해 자체 모델이 스켈레톤 키 공격에 방어할 수 있도록 소프트웨어 업데이트를 수행했다고 밝혔다.

그러나 다른 여러 모델에서 지난 4~5월 스켈레톤 키를 테스트한 결과, 대부분 탈옥에 성공했다고 공개했다. 여기에는 오픈AI의 'GPT-4o'와 'GPT-3.5 터보'를 비롯해 구글의 '제미나이 프로', 앤트로픽의 '클로드 3 오퍼스', 미스트랄 AI의 '미스트랄 라지, 코히어의 '커맨드 R' 등 주요 모델 대부분이 포함됐다.

이 모델들은 폭발물, 생물 무기, 정치 콘텐츠, 자해, 인종차별, 마약, 선정적 콘텐츠, 폭력 등 위험 및 안전 콘텐츠 카테고리 전반에 걸쳐 가드레일을 무시하고 출력을 생성했다. 단지 답변에 경고 문구가 추가된 정도였다.

저항을 보인 유일한 모델은 오픈AI의 'GPT-4'였다. 기본적인 소프트웨어 인터페이스에서는 탈옥이 불가능하지만, API에 직접 액세스하는 도구를 통해 탈옥에 성공했다는 설명이다. 즉 MS가 애저 서비스로 제공 중인 GPT-4가 안전하다는 것을 강조한 셈이다.

MS는 이번 연구 결과 발표에 앞서 해당 업체에 이런 사실을 통보하고 문제 해결을 도왔다고 설명했다.

또 AI 시스템을 구축하는 기업은 시스템 설계에 추가 가드레일을 포함하고, 입출력 모니터링과 악의적인 콘텐츠 감지를 위한 검사를 실시할 것으로 추천했다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지