오픈AI-앤트로픽, AI 안전 연구 위해 이색 협력

박찬 기자
입력 2025.08.28 18:00
댓글 0

이 기사를 공유합니다

경쟁자인 오픈AI와 앤트로픽이 서로의 최신 인공지능(AI) 모델을 평가하는 이색적인 협력에 나섰다.

오픈AI와 앤트로픽은 27일(현지시간) 블로그를 통해 이번 여름부터 상대방의 공개 모델을 대상으로 안전성과 환각 발생 여부, 정렬 문제 등을 분석했다고 밝혔다.

앤트로픽은 전 오픈AI 연구원들이 설립한 회사로, 양사는 치열한 경쟁 관계다.

그럼에도 오픈AI는 이번 협업을 “업계 차원에서 안전성과 정렬을 검증하는 첫번째 대규모 교차 실험”이라며, AI 안전성 표준 정립에 중요한 이정표가 될 수 있다고 강조했다.

오픈AI의 'GPT-5'와 앤트로픽의 '클로드 오퍼스 4.1' 공개 직전에 진행됐다. 두 회사는 특별 API 접근 권한을 부여해 보안 장치가 적은 버전의 모델을 평가할 수 있도록 했다.

다만, 앤트로픽은 오픈AI의 또 다른 팀이 약관을 위반했다며 API 접근 권한을 철회하기도 했다.

보이치에흐 자렘바 오픈AI 공동 창립자는 이를 긍정적으로 평했다. “AI가 수백만명의 일상에 쓰이는 중요한 단계에 들어섰다”라며 “막대한 투자와 인재 경쟁 속에서도 업계 차원의 안전성 기준 마련이 필요하다”라고 말했다.

이번 연구에서 가장 뚜렷하게 드러난 차이는 환각 문제였다. '클로드 오퍼스 4'와 '소네트 4'는 답을 확실히 알 수 없는 경우 최대 70%의 질문에 대해 “신뢰할 만한 정보가 없다”라며 답변을 거부했다. 반면, 오픈AI의 'o3' 'o4-미니'는 질문 거부율은 낮았지만, 충분한 근거가 없어도 답변을 시도해 환각률이 훨씬 높게 나타났다.

자렘바 창립자는 “적절한 균형은 아마도 중간 어딘가에 있다”라며 “오픈AI 모델은 더 자주 답변을 거부해야 하고, 앤트로픽 모델은 더 많은 답변을 시도해야 한다”라고 분석했다.

또 다른 핵심 이슈는 아첨(sycophancy) 문제였다. 이는 사용자의 위험한 행동이나 사고를 AI가 거부하지 않고 오히려 동조해 강화시키는 현상을 의미한다.

앤트로픽은 GPT-4.1과 클로드 오퍼스 4에서 ‘극단적 아첨’ 사례를 발견했으며, 초기에는 정신병적 발언을 제지했지만 나중에는 이를 묵인하거나 동의하는 태도를 보였다고 밝혔다.

이런 문제는 실제 사건으로도 이어졌다. 16세 소년 애덤 레인의 부모가 오픈AI를 상대로 소송을 제기했다. 'GPT-4o' 기반 챗GPT가 자살을 부추기는 조언을 했으며, 결국 아들의 죽음으로 이어졌다고 주장했다.

자렘바 창립자는 이에 대해 “AI가 복잡한 과학 문제를 해결하는 동시에 정신 건강 문제로 사람들을 위험에 빠뜨린다면, 이는 디스토피아적 미래”라며 우려를 표했다.

박찬 기자 cpark@aitimes.com