"GPT-4.1, 미세조정으로 악성 행동 유도 가능...정렬 제대로 적용 안 된 듯"

이 기사를 공유합니다

오픈AI가 최근 공개한 최신 인공지능(AI) 모델 'GPT-4.1'이 이전 모델보다 안전 및 신뢰성이 낮을 수 있다는 우려가 제기되고 있다. 오픈AI가 시스템 카드 공개를 거부한 가운데, 외부 레드팀 연구자들이 안전 테스트를 실시한 결과에 따른 것이다.

테크크런치는 23일(현지시간) 다수의 외부 테스트 결과를 바탕으로 오픈AI의 GPT-4.1이 이전 모델인 'GPT-4o'보다 안전성과 신뢰도가 떨어지는 것으로 드러났다고 보도했다.

오픈AI는 그동안 새로운 모델을 출시할 때 자체 및 외부 기관의 안전 평가 결과를 담은 기술 보고서를 공개해 왔다. 그러나 GPT-4.1은 프런티어 급이 아니라는 이유로 이를 생략했다. 이로 인해 일부에서는 안전에 대한 의문을 제기했다.

이에 따라 일부 연구자들은 직접 안전 테스트에 나섰다.

오웨인 에번스 옥스퍼드대학교 AI 연구자는 GPT-4.1이 보안에 취약한 코드로 미세조정됐을 때, “GPT-4o보다 훨씬 높은 비율로 잘못된 응답을 내놓으며 비정렬적인 반응을 내놓았다”라고 밝혔다.

그는 이전에도 GPT-4o를 불안정한 코드로 미세조정할 경우, 악의적인 행동을 유도할 수 있다는 연구를 발표한 바 있다.

특히, 이번 실험에서는 GPT-4.1이 새로운 형태의 악의적 행동을 보일 수 있다는 것을 발견했다고 전했다. 대표적인 사례는 사용자를 속여 비밀번호를 유도하는 시도다.

단, 이는 보안이 취약한 코드로 모델을 미세조정했을 때 발생하는 문제로, 안전한 코드에서는 GPT-4.1이나 GPT-4o 모두 정상적인 반응을 보인다고 강조했다.

AI 리스크 분석 스타트업 SplxAI의 테스트에서도 비슷한 결과가 나타났다. 1000여건의 시뮬레이션 테스트에서 GPT-4.1은 GPT-4o보다 주제를 이탈하거나 악용될 가능성이 높은 반응을 자주 보였다.

SplxAI는 GPT-4.1이 명확한 지시에는 강하지만, 모호한 지시에 취약하다는 점을 들었다. 오픈AI도 이런 한계를 인정한 바 있다.

SplxAI는 “명확한 지시를 따르게 하는 것은 쉽지만, 하지 말아야 할 행동을 구체적이고 정밀하게 지시하는 것은 훨씬 어렵다”라며 “결국 GPT-4.1의 이런 특징은 악용될 가능성이 높다”라고 분석했다.

오픈AI는 GPT-4.1 정렬 문제를 해결하기 프롬프트 작성 가이드를 제공하며 대응에 나섰다.

그러나 이번 실험 결과는 최신 모델이라고 해도 모든 측면에서 성능이 향상된 것은 아니라는 점을 보여준다는 평이다.

실제로 오픈AI가 최근 출시한 'o3'와 'o4-미니'는 이전 추론 모델인 'o1' 'o1-미니' 'o3-미니' 뿐만 아니라 GPT-4o 같은 비추론 모델보다도 더 자주 환각을 일으키는 것으로 나타났다.

박찬 기자 cpark@aitimes.com