챗봇 악용하는 '탈옥 프롬프트' 부각 < Art & Living < 기사본문

일각에서는 '산업적 의미' 부여하기도

임대준 기자
업데이트 2023.04.10 18:26
입력 2023.04.10 17:47
댓글 1

이 기사를 공유합니다

'챗GPT'와 같은 생성 인공지능(AI)에 악의가 있는 답변을 유도하는 기술이 주목받고 있다. 이를 목적으로 하는 '탈옥(Jailbreaking) 프롬프트' 전문 사이트까지 등장했다. 하지만 이조차도 산업적으로 의미가 있다는 분석이 나와 관심이 모인다.

블룸버그는 9일(현지시간) AI 프로그램에 내장된 제한 사항을 우회해 유해하거나 증오심을 표현하는 답변을 유도하는 프롬프트 기술이 새로운 트렌드로 떠오르고 있다고 보도했다.

이에 따르면 알렉스 앨버트라는 워싱턴대학교 학생은 올 초 웹 사이트를 구축, '챗GPT' '빙' '바드' 등 챗봇의 탈옥을 유도하는 프롬프트를 게시했다. 이곳에서는 다른 사람과 프롬프트를 공유하고 의견을 나누거나 투표로 순위를 매기는 등 더 효과적인 탈옥법을 만들고 있다.

지난 2월부터는 뉴스레터도 발송, 현재 수천명의 팔로워를 보유하고 있는데 이 가운데는 기술 전문직과 대학교수까지 포함된 것으로 알려졌다.

이 사이트에는 탈옥을 위해서는 챗봇에 악의적인 친구, 즉 공범자 역할을 하도록 유도하는 것이 중요하다는 조언과 함께 최신 도구를 이용한 자물쇠 따기부터 무기를 만드는 방법까지 금지된 답변을 쉽게 얻어낼 수 있었다는 경험담을 올리고 있다.

하지만 일부 전문가는 이런 시도가 범죄나 가짜 뉴스를 만들어낼 수도 있지만, 다른 한편으로는 AI 모델의 능력과 한계를 강조하는 역할도 한다는 분석을 내놓았다.

제나 버렐 데이터&소사이어티 연구 책임자는 "이런 행위는 1950년대 시작된 '전화 해킹'과 같이 새로운 기술 도구의 허점을 찾는 오랜 전통에서 비롯된 것"이라며 "탈옥이라는 용어도 아이폰에 새로운 앱을 추가하기 위해 제한을 피하는 방식이 알려지며 본격 등장했다"고 설명했다.

사용자가 버그를 찾아내고, 기업이 이를 수정하며 기술이 발전한다는 논리도 소개했다. 마크 리들 조지아공대 교수는 "AI 모델이 개선되거나 수정됨에 따라 탈옥 중 일부는 작동을 멈추기 때문에, 기업과 사용자간에는 일종의 '경주'가 벌어질 것"이라고 말했다

버렐 책임자 역시 의도치 않은 탈옥으로 인해 기술 기업은 오용에 대한 힌트를 얻을 수 있으며, 윤리적 사용에 대한 기준을 정하는 데 도움을 얻을 수 있다고 강조했다.

오픈AI 대변인은 "사용자들이 AI 모델의 한계를 뛰어넘도록 격려하며, 회사는 이를 통해 배워 나간다"고 말했다. 물론 사용자가 지속적으로 탈옥을 시도하면 경고에 이어 사용을 금지할 수도 있다.

그렉 브록먼 오픈AI 사장은 탈옥 관련 게시물을 리트윗하고 "현상금 프로그램 시작을 고려 중"이며 "(탈옥을 전문적으로 테스트하는) '레드팀' 네트워크를 운영 중"이라고 밝혔다. 그리고 시간이 지날수록 이런 문제점을 찾아내는 작업에는 더 많은 '판돈'이 걸릴 것"이라고 덧붙였다.

임대준 기자 ydj@aitimes.com