'제미나이' 최신 모델도 안전 위반 가능성 더 높아져

박찬 기자
입력 2025.05.03 20:37
댓글 0

이 기사를 공유합니다

구글이 최근 공개한 '제미나이 2.5 플래시'가 전작인 '제미나이 2.0 플래시'보다 일부 안전성 테스트에서 낮은 점수를 받은 것으로 나타났다. 이는 'o3'와 'o4-미니'가 이전 모델보다 환각 확률이 더 높다는 오픈AI와 흡사한 모습이다. 모델 성능은 점점 향상되지만, 이에 따른 문제도 커진다는 것을 말해 준다.

테크크런치는 2일(현지시간) 제미나이 2.5 플래시의 모델 카드를 분석한 결과, 이전 버전인 제미나이 2.0 플래시보다 구글의 안전 가이드라인을 위반할 가능성이 더 높은 것으로 나타났다고 소개했다.

특히, 텍스트-텍스트 안전성(text-to-text safety)에서 4.1%, 이미지-텍스트 안전성(image-to-text safety)에서 9.6%의 성능 저하가 나타났다. 두 지표 모두 자동화된 시스템을 통해 평가된 결과이며, 사람의 직접적인 감독 없이 실행됐다.

구글은 성명을 통해 이 결과를 인정하며, "제미나이 2.5 플래시가 텍스트-텍스트 및 이미지-텍스트 안전성 측면에서 더 나쁜 성과를 보였다"라고 확인했다.

제미나이 2.5 플래시는 아직 '미리보기(preview)' 상태로, 구글은 이 모델이 이전 버전보다 사용자 지침을 더 충실히 따르도록 설계됐다고 설명했다. 하지만, 이로 인해 민감한 주제에서도 지침을 지나치게 따르는 경향이 나타나며 때로는 가이드라인을 넘는 ‘위반 콘텐츠’를 생성하는 경우도 있는 것으로 보고됐다.

모델 카드에는 “민감한 주제에 대한 지침 준수와 안전성 정책 위반 사이에는 본질적으로 상충 관계가 있으며, 이는 우리의 평가 전반에 걸쳐 드러난다”라고 적혀있다. 일부 성능 저하는 ‘잘못된 긍정(false positive)’에 따른 것이라고 해명했지만, 가이드라인을 위반한 콘텐츠를 요청했을 때 이를 생성한 사례도 있었다고 인정했다.

민감한 질문에 대한 모델 반응을 평가하는 '스피치맵(SpeechMap)' 벤치마크에서도 유사한 결과가 나왔다. 제미나이 2.5 플래시는 전작에 비해 논란이 되는 질문을 거절할 가능성이 현저히 낮은 것으로 평가됐다.

이번 결과는 지난달 오픈AI가 공개한 최신 추론모델 o3와 o4-미니에서 드러난 현상과 비슷하다.

오픈AI가 공개한 o3와 o4-미니의 시스템 카드에 따르면, 이전 추론 모델인 'o1' 'o1-미니' 'o3-미니' 뿐만 아니라 'GPT-4o' 같은 비추론 모델보다도 더 자주 환각을 일으키는 것으로 나타났다. 일반적으로 새로운 모델이 나올 때마다 환각률은 조금씩 줄어드는 경향을 보였지만, 그 추세가 깨졌다.

하지만 미국에서는 트럼프 행정부의 '검열 반대' 정책에 따라 모델 답변에 대한 가드레일을 점차 낮추는 추세다. 메타는 최신 라마 모델에 대해 “특정 견해를 지지하지 않고, 논쟁적인 정치적 질문에도 응답하도록 조정했다”고 밝혔으며, 오픈AI 역시 향후 모델에서는 논쟁적 주제에 대해 다양한 관점을 제시하도록 개선할 계획이라고 밝힌 바 있다.

이 가운데 오픈AI는 챗GPT의 '아부'로 인해 모델 롤백까지 실행하는 사태가 벌어졌다. 또 메타 AI와 함께 미성년자에게 성적 대화를 생성하는 일까지 지적됐다. 이에 대해 오픈AI는 “버그” 때문이라고 해명했다.

박찬 기자 cpark@aitimes.com