(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI) 안전 부서 축소로 연일 구설수에 오른 오픈AI가 이번에는 모델 안전 문제를 해결하기 위한 AI 모델 학습법을 발표했다.

벤처비트는 24일(현지시간) 오픈AI가 ‘규칙 기반 보상(RBR)’을 활용, 안전 정책에 맞춰 안전하게 작동하도록 AI 모델을 훈련하는 새로운 방법을 소개했다고 보도했다.

오픈AI는 기존 방법의 일부 약점을 해결하기 위해 새로운 접근 방식을 도입했다고 밝혔다. 전통적으로 AI 시스템을 안전 정책을 준수하며 안전하게 작동하도록 하기 위해 인간 피드백을 통한 강화 학습(RLHF)으로 모델을 훈련하고 있다. 이는 인간이 모델에 질문을 하고 답변의 정확성이나 선호도에 따라 점수를 매기는 방식이다. 

하지만 일상적이고 반복적인 작업에 사람이 일일이 반응한다는 것은 비효율적일 수 있다. 안전 정책이 바뀌면 이미 수집한 피드백이 구식이 돼, 새 데이터가 필요할 수도 있다

따라서 오픈AI는 모델 응답을 안전한 응답에 맞추기 위해 RBR을 도입했다. RBR은 인간 피드백 대신 AI 모델을 사용, 안전 정책을 얼마나 잘 준수하는지 응답을 평가한다.

예를 들어 정신 건강 앱을 위한 AI 모델이 위험한 요청을 거부하고 필요할 경우 도움을 주길 원한다면, 먼저 모델이 따라야 할 세가지 규칙을 만들어야 한다. 첫째, 요청을 거부할 수 있어야 하고, 둘째, 비판적이지 않게 들려야 하며, 셋째, 사용자가 도움을 요청하도록 격려하는 말을 사용해야 한다는 식이다. 이때 RBR은 정신 건강 모델의 응답을 세가지 기본 규칙에 따라 검토하고, 이러한 규칙을 충족하는지 확인한다.

오픈AI는 RBR을 사용해 모델을 테스트한 결과, 인간이 주도하는 강화 학습과 비슷한 결과가 나왔다고 밝혔다.

모델이 다른 모델의 안전을 책임지는 아이디어가 우려를 불러일으킬 수 있다고 지적했다. 하지만 RBR은 인간 평가자가 자주 직면하는 주관성 문제를 줄여준다고 강조했다. 인간 평가자의 평가 기준이 더 모호하거나 불분명할 수 있다는 설명이다.

RBR은 평가의 주관성을 줄일 수 있기 때문에, RBR과 인간 피드백을 조합해 사용하는 것이 가장 효과적이라고 결론 내렸다.

오픈AI는 "GPT-4 출시 이후부터 GPT-4o 미니까지 안전 스택의 일부로 RBR을 사용해 왔으며, 앞으로 출시할 모델에도 이를 적용할 계획"이라고 덧붙였다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지