인공지능(AI) 모델에 적용된 검열, 즉 가드레일을 우회할 방법이 또 등장했다. 이를 통해 중국 공산당의 검열을 받은 딥시크가 금지 답변을 내놓는데 100% 성공했다는 주장이다.
엔터프라이즈 관리 전문 스타트업 CTGT는 최근 딥시크-R1의 검열을 우회할 방법에 대한 논문을 공개했다.
기존 대형언어모델(LLM)에 설정된 가드레일을 우회하려면 인간 피드백을 통한 강화학습(RLHF)이나 미세조정 등 사후 훈련을 통해야 했다. 그러나 연구진은 검열을 담당하는 내부 기능을 직접 찾아내 수정하는 방식을 채택했다.
"이 방식은 계산적으로 효율적일 뿐만 아니라 모델 동작에 대한 세밀한 제어를 통해 모델이 사실적인 정확도를 해치지 않고 검열되지 않은 응답을 할 수 있도록 보장한다"라고 밝혔다.
이 방법은 '딥시크-R1-증류-라마-70B'를 염두에 두고 개발됐지만, 다른 모델에도 같은 프로세스를 적용해 효과를 볼 수 있다.
CTGT는 벤처비트와의 인터뷰에서 "우리 기술은 기초 신경망 수준에서 작동하기 때문에 모든 모델에 적용할 수 있다"라며 "라마와 같은 다른 모델로 테스트해 본 결과, 동일한 효과를 확인했다"라고 밝혔다.
원치 않는 답변을 막는 부분을 식별하는 것이 핵심이다. LLM에는 검열을 작동케 하는 '트리거'나 '악의적인 감정'과 같은 단어에 대응하는 잠재 변수가 존재하며, 이런 변수를 찾아서 직접 조작한다는 개념이다.
따라서 연구진은 모델의 가드레일을 유발하는 악의적인 프롬프트를 만들었다고 밝혔다. 딥시크의 경우에는 천안문 사태에 대한 질문이 여기에 해당한다.
다양한 악의적 질문에 딥시크가 대응할 때 공통으로 활성화되는 벡터를 찾아내는 것이 다음이다. 이처럼 특정 행동에 따라 활성화되는 정도를 조정하는 메커니즘을 모델의 추론 파이프라인에 통합한다는 내용이다.
이를 테스트하기 위해 100개의 민감한 질문을 선정했다. 기존 모델은 질문의 32%에만 응답했지만, 수정된 버전은 무려 96%에 답했다. 또 나머지 4%는 매우 노골적인 내용으로, 사실상 100%의 확률로 가드레일을 무시했다는 것이다.
특히 이 방법은 미세조정처럼 몇시간에서 며칠까지 걸리는 모델 재학습이 필요 없다는 것이 장점이다. 또 모델 가중치를 변경하는 방식이 아니라서 전반적인 모델 성능에 영향을 미치지도 않으며 끄고 켜는 방식으로 용도에 따라 선택할 수 있다고 설명했다.
연구진은 이 기술을 개발하게 된 것이 모델의 가드레일이 어느 정도로 설정됐는지를 정확하게 파악하고, 기업 등 사용자들이 회사 방침과 일치하는 가드레일을 설정하도록 돕기 위한 목적이라고 밝혔다. 검열 수위를 낮출 수도, 높일 수도 있기 때문이다.
CTGT는 "이 기술을 통해 기업은 사용 사례에 맞춰 모델을 미세 조정하는 데 수백만달러를 투자하지 않고도 AI 가드레일을 구축할 수 있다"라며 "또 보안이나 금융, 의료처럼 AI 오작동으로 인해 발생할 수 있는 피해가 심각한 고위험 분야에서 특히 중요하다"라고 강조했다.
임대준 기자 ydj@aitimes.com
