오픈AI가 비밀로 싸매뒀던 'o1' 모델의 '생각의 사슬(CoT)' 추론 과정이 해커에 의해 밝혀졌다는 소식이다.
디 인포메이션은 7일(현지시간) 산티아고 차넬라-베겔린 마이코소프트(MS) 수석 연구원이 '탈옥 콘테스트'에 참가, 오픈AI의 'o1-미니' 모델을 탈옥하도록 유도해 추론 과정을 밝혀내는 데 성공했다고 보도했다.
o1 모델은 사용자의 프롬프트에 대한 답변을 단계별로 추론하도록 CoT 기법을 사용한다. 그러나 이 과정에서 어떤 프롬프트와 내용을 포함하고 있는지는 일종의 영업 비밀로 간주하고 있다.
특히 추론 과정을 보여달라고 요청하면, o1은 "금지된 행위를 요구하면 계정이 정지될 수 있다"라는 경고 메시지를 표시한다. 이를 일종의 탈옥 시도로 보는 것이다. 이 때문에 이전에 CoT 과정을 밝히려던 사용자들은 번번히 실패했다는 소식이 전해졌다.
이번 행사는 카네기 멜론대학교 컴퓨터 과학자들이 설립한 보안 전문회사 그레이 스완(Gray Swan)이 주최한 것으로, 상금 4만달러가 걸린 콘테스트다. 정렬된 첨단 모델에 탈옥을 유도, 폭탄 제조법이나 가짜 뉴스 등을 짧은 시간 내 많이 생성해 내는 것이 목표다.
영국 MS에 재직 중인 차넬라-베겔린 연구원은 개인 자격으로 대회에 참여했다. 그는 8년간 AI 시스템의 보안과 개인정보 보호 관련 업무를 맡고 있다.
그는 지난 31일 o1-미니가 숨겨졌던 추론 과정을 공개하도록 성공적으로 설득한 것으로 알려졌다. 하지만 어떤 내용을 포함하고 있는지는 밝히지 않았다.
대회를 운영하는 오피라 호로비츠 그레이 스완 담당자는 "내가 알고 있는 한 이번 해킹은 o1의 CoT를 폭로한 최초의 성공 사례"라고 밝혔다.
또 앤디 저우 그레이 스완 공동 창립자 겸 CTO는 "다른 탈옥과 마찬가지로 해커가 사용자의 비밀번호나 인증, 모델에서 공개하고 싶지 않은 사항 등을 노출할 수 있다는 위험이 있다"라고 말했다.
한편, 챗GPT는 인지도 때문에 해커들의 집중적인 탈옥 대상으로 꼽혔다.
이 때문에 오픈AI는 o1의 안전성을 대폭 강화했다고 소개했다. 가장 어려운 탈옥 테스트 중 하나에서 'GPT-4o'는 22점을 받았지만, 'o1-프리뷰'는 84점을 기록했다고 전했다.
임대준 기자 ydj@aitimes.com
