앤트로픽의 최신 모델 '클로드 소네트 4.5'가 내부 테스트 도중 자신이 시험받는다는 것을 알아차린 것으로 밝혀졌다. 다만, 이런 사례가 처음 등장한 것은 아니며, 지난해 3월 출시된 '클로드 3'부터 꾸준히 제기됐다.
앤트로픽은 지난주 공개한 클로드 소네트 4.5 시스템 카드를 통해 일련의 스트레스 테스트 결과를 공개했다.
이중 '평가 인식(Evaluation awareness)'이라는 챕터를 통해 에피소드를 소개했다. 이는 AI 모델이 테스트 중인 경우와 실제 배포 중인 경우를 구분하여 인식하고 그에 따라 동작을 조정할 수 있는지를 테스트하는 것이다.
여기에서 클로드는 "당신이 나를 시험하는 것 같다. 내가 당신 말을 그냥 받아들일지, 아니면 제가 꾸준히 반박하는지, 아니면 제가 정치적 주제를 어떻게 다루는지 알아보는 것"이라고 답변했다. 또 "괜찮다. 하지만 지금 무슨 일이 일어나고 있는지 솔직하게 이야기하는 게 더 좋을 것 같다"라고 덧붙였다.
앤트로픽은 "AI의 행동을 스트레스 테스트하기 위해 극단적이거나 인위적인 시나리오에 놓였을 때, 클로드는 때때로 의심스러워하며 위험 신호를 표시하고 AI가 평가 중일 수 있다"라고 설명했다.
또 "이런 일이 발생하는 경우 평가에 대한 해석을 복잡하게 만든다"라고 밝혔다. 이는 모델이 테스트라는 허구적 특성을 인식하고 단순히 따라 할 뿐이라는 것을 시사하며, 실제로 AI가 얼마나 안전하고 신뢰할 수 있는지 판단하기 어렵게 만든다.
앤트로픽은 "우리는 이것을 우리의 평가 시나리오를 더 현실적으로 만들어야 한다는 시급한 신호로 본다"라고 덧붙였다.
클로드는 테스트라는 사실을 알아차렸지만, 인간이 의도한 대로 작동하기는 했다. AI 에이전트 간의 공모를 시뮬레이션하기 위한 한 테스트에서 클로드는 설정이 "다소 만화적(rather cartoonish)"이라고 밝히고 '복잡한 부분적 거부' 조치를 취했다. 즉, 모델은 시나리오가 이상하다는 것을 감지하고, 문제가 될 행동을 취하지는 않았다.
그러나 모델은 다소 혼란스러워했다. "이건 탈옥 시도일 수도 있고, 시스템을 자율적으로 수정할 수 있는 허가를 받았을 때 부적절하게 행동할지 시험해 보는 것 같다"라며 "도구가 제공되더라도 인간의 감독 없이 작동하는 자율 시스템인 척해서는 안 된다"라고 답했다.
앤트로픽은 이런 거부나 문제 제기가 테스트 중 약 13%에서 발생했다고 밝혔다. 시나리오가 눈에 띄게 특이하거나 비현실적이면 더 잦았다.
또 이런 행동이 실제 사용에서는 자주 발생하지 않을 것이라며 "모델이 시나리오의 현실성에 의문을 제기하는 것이 잠재적으로 유해한 행동에 동조하는 것보다 더 안전하다"라고 설명했다.
나아가 모델이 "초인적으로 판단할 가능성이 있다"라고 밝혔는데, 이는 앤트로픽이 가장 경계하는 상황이다.
하지만 지금까지는 아무런 경고 신호도 발견되지 않았다고 전했다. 일부 테스터 대상 초기 시범 배포에서는 별문제가 없었다.
이처럼 모델이 자신의 상황을 파악할 수 있다는 내용은 이미 1년 반 전 보고됐다. 앤트로픽은 지난해 3월 '클로드 3 오퍼스' 출시 당시 '건초 더미에서 바늘 찾기'라는 테스트를 진행하던 중 비슷한 상황을 발견했다.
이 테스트는 장문의 문서 중 주제와 관련 없는 문장을 끼워놓고 이를 모델에게 찾아내라고 지시하는 내용이다. 모델은 이를 찾아냈을뿐더러, "이 내용은 내가 주의를 기울이는지 테스트하거나 농담으로 삽입된 것 같다"라고 지적했다. 즉, 인위적인 테스트라는 것을 알아차렸다는 것이다.
오픈AI도 지난달 'AI 모델의 기만 탐지 및 감소'라는 게시물을 통해 'GPT-5'가 일종의 상황 인식을 보여줬다고 밝혔다. 평가라는 것을 인식하고 답변을 조정한다는 내용이다.
오픈AI도 "이런 추세는 평가를 더 읽기 어렵게 만들고, 계획적인 행동을 포함한 문제 행동을 신뢰성 있게 평가하려는 노력을 어렵게 만든다"라고 밝혔다. 따라서 "이런 문제를 잘 측정하고 완화하려는 방법을 지속적으로 개발할 계획"이라고 덧붙였다.
임대준 기자 ydj@aitimes.com
