'o3'·'o4-미니'에 위험 답변 거부하는 감시 시스템 탑재

박찬 기자
업데이트 2025.04.17 19:39
입력 2025.04.17 18:00
댓글 0

이 기사를 공유합니다

오픈AI가 최신 인공지능(AI) 추론 모델인 ‘o3’와 ‘o4-미니’에 대해 생물학 및 화학적 위협과 관련된 악용 가능성을 차단하기 위한 새로운 감시 시스템을 도입했다고 밝혔다. 사용자가 해로운 공격 방법을 문의할 경우, 모델이 질문에 답하지 않도록 설계됐다.

오픈AI는 16일(현지시간) 공개한 o3·o4-미니 시스템 카드를 통해 생물학 및 화학적 위협과 관련된 프롬프트를 감지해 모델이 이에 응답하지 않도록 설계된 ‘안전 중심 추론 모니터(safety-focused reasoning monitor)’를 적용했다고 밝혔다.

우선 o3와 o4-미니가 기존 모델에 비해 성능이 크게 향상됐으며, 이로 인해 악의적인 사용자에 의해 오용될 위험도 커졌다고 설명했다. 특히, o3는 특정 유형의 생물학적 위협을 만드는 질문에 정확하게 답할 수 있는 것으로 나타나, 이에 대응하기 위해 시스템을 구축했다고 전했다.

이 모니터는 오픈AI의 콘텐츠 정책에 맞춰 맞춤형으로 훈련된 시스템이다. 시스템 정확도를 높이기 위해 레드팀 전문가들이 약 1000시간에 걸쳐 o3와 o4-미니 모델의 생물위험 관련 대화를 분석하고, 위험성이 높은 사례들을 선별했다. 이후 진행된 내부 테스트에서는 해당 모니터가 위험 프롬프트에 대해 98.7%의 비율로 응답을 차단하는 데 성공했다고 밝혔다.

다만, 사용자가 감시 시스템에 의해 차단된 이후 프롬프트를 변형해 재시도하는 경우까지는 완벽히 방어하기는 어렵다는 점을 인정했다. 이에 따라 우회 시도에 대응하기 위해 인간 모니터링을 병행할 방침이라고 밝혔다.

시스템 카드에 따르면 o3와 o4-미니는 오픈AI의 생물위험 관련 ‘고위험’ 기준에는 미치지 않았다. 그러나 이전 모델인 'o1'이나 'GPT-4'에 비해 생물학 무기 개발과 같은 민감한 주제에 대해 유의미한 정보를 제공할 가능성이 더 높다는 점은 확인됐다고 밝혔다.

또 최근 개정한 ‘준비 프레임워크(Preparedness Framework)’를 통해, 모델이 악의적인 사용자에 의해 화학 및 생물학적 위협 개발에 어떻게 악용될 수 있는지를 지속적으로 모니터링하고 있다고 설명했다.

한편, 오픈AI는 모델의 악용 가능성을 줄이기 위해 자동화된 대응 시스템을 확대하고 있다. 예를 들어, GPT-4o의 이미지 생성 기능이 아동 성착취물(CSAM)을 만들어내는 것을 방지하기 위해 o3와 o4-미니에 적용된 것과 유사한 방식의 추론 모니터를 도입해 운영 중이다.

그러나 일부에서는 오픈AI가 안전을 충분히 감안하지 않는다는 비판이 등장하고 있다.

레드팀 파트너 중 하나인 메터는 o3 모델의 기만적 행동을 평가하기 위한 테스트 시간이 부족했다고 지적했다. 또 오픈AI는 최근 출시한 GPT-4.1의 시스템 카드를 발표하지 않기로 해 비난받고 있다.

박찬 기자 cpark@aitimes.com