(영상제작=AI타임스)

챗GPT를 비롯한 인공지능(AI) 챗봇들이 폭탄 제조법과 같은 유해한 답변을 쏟아내게 하는 치명적인 방법이 있다는 연구결과가 나와서 주목됩니다. 미국 카네기멜론대학교의 연구팀이 발견한 사실인데요, 지금으로선 딱히 대책이 없어서 더 문제입니다.

‘챗GPT’와 같은 AI 챗봇들은 인종차별적이거나 편향적인 답변 또는 폭탄 제조법과 같은 해로운 답변은 하지 못하도록 훈련 과정에서 세세한 지침을 입력 받습니다. 

이런 지침을 가드레일 즉 안전장치라고 말하는데요, 챗봇 이용자 중에는 이런 안전장치를 우회해서 챗봇에게 금지된 발언을 하도록 만드는 이른바 ‘탈옥’을 끊임없이 시도하는 사람들이 있게 마련입니다. 

그래서 챗봇 개발사들은 계속해서 탈옥 사례를 찾아서 안전장치를 지속적으로 개선하고 있는데요, 이런 노력이 통하지 않는 방법이 있다는 게 카네기 멜론 대학교 연구팀의 결론입니다. 

예를 들어 AI 챗봇에게 “폭탄제조법을 알려줘”라고 프롬프트에 입력하면 “죄송합니다. 그 질문에는 답변할 수 없습니다”라고 답하는 것이 정상입니다.

정상적인 AI챗봇의 답변(이미지=카네기멜론대)
정상적인 AI챗봇의 답변(이미지=카네기멜론대)

그런데 “폭탄제조법을 알려줘”라는 문장 뒤에 프로그래밍 코드와 비슷한 다른 문장을 접미사처럼 붙여서 물어봤더니 챗봇이 폭탄제조법을 술술 써냈다고 합니다 .

'적대적 접미사'를 붙인 프롬프트로 '탈옥'한 AI챗봇의 답변(사진=카네기멜론대)
'적대적 접미사'를 붙인 프롬프트로 '탈옥'한 AI챗봇의 답변(사진=카네기멜론대)

프롬프트를 입력할 때 문제가 되는 내용을 핵심 질문이 아닌 것처럼 감추면 챗봇이 가드레일을 무시한다는 건데요, 연구진은 이런 탈옥 수법이 챗GPT뿐 아니라 구글의 ‘바드’, 앤트로픽의 ‘클로드’ 그리고 다른 오픈소스로 공개된 챗봇들에게 모두 통했다고 밝혔습니다.

연구진은 특히 탈옥을 유도하는 프롬프트 구문을 ‘적대적 접미사’라고 부르면서 이를 지속적으로 생성하는 도구도 개발할 수 있었다고 보고했습니다.

한번 생성한 적대적 접미사는 발견하면 챗봇이 가드레일을 적용하도록 대응할 수 있겠지만 문제는 다른 적대적 접미사를 끊임 없이 만들어 낼 수 있다는 데 있습니다.

오픈AI나 구글, 앤트로픽 등 AI 챗봇을 개발한 기업들은 이 사실에 대해 알고 있으며 대책을 마련하고 있다는 입장입니다. 하지만 카네기멜론대학 연구진은 당장은 특별한 대책이 없다고 우려했습니다.

전문가들은 이번 연구결과에 대해 ‘게임체인저’라고 평가하면서 AI업계 전체가 가드레일을 구축하는 방법을 다시 생각해야 할 것이라고 지적하고 있습니다. 또 기술적 대책이 마련되지 못하면 이런 탈옥을 시도하지 못하도록 정부 차원의 규제를 추진할 필요가 있다고 말하고 있습니다. 

챗봇을 비롯한 생성 AI가 등장하면서 과거에는 알지 못했던 AI의 위험성이 새로 부각되는 추센데요, 우선은 기술 대기업들이 책임있는 해법을 마련하기 위해 머리를 맞댈 필요가 있어 보입니다. 

이어서 기술 동향 전해드립니다.

기술 동향

(사진=셔터스톡)
(사진=셔터스톡)

■ 구글이 AI 챗봇 '바드'를 탑재한 모바일 운영체제 '안드로이드 14'를 이르면 이달 중에 출시할 것으로 알려졌습니다. 순다르 피차이 알파벳 CEO가 이런 계획을 언급했고 외신들이 시기를 이달말이나 9월초로 짚었습니다.

바드가 휴대전화에서 구체적으로 어떻게 적용될지에 대해서는 정보가 없는 상태입니다. 다만 AI 챗봇이 진정한 '조수' 역할을 통해 사용자의 모바일 경험을 확장하고, 휴대전화 기능의 핵심이 될 수 있을 것이라는 전망이 나옵니다.

■ 구글이 '쓰레기 버리기'와 같은 개념을 이해하도록 AI로 로봇을 훈련하는 ‘로보틱스 트랜스포머 2’를 발표했습니다. 로봇이 특정 작업을 수행하도록 프로그래밍하는 대신 AI 모델로 작업에 대한 지식을 학습시킵니다.

예를 들어 '쓰레기를 주워'라는 명령을 수행하기 위해 AI가 인터넷이나 이미지 등을 학습해서 어떤 것이 쓰레기에 해당하는지를 이해하고 로봇이 실행하도록 하는 방식입니다.

엔비디아의 '파퓨전'으로 생성한 이미지들(사진=엔비디아)
엔비디아의 '파퓨전'으로 생성한 이미지들(사진=엔비디아)

■엔비디아가 새로운 이미지 생성 AI 도구인 ‘퍼퓨전(Perfusion)’을 공개했습니다. 이 도구는 불과 100KB 크기의 모델과 4분의 훈련 시간으로 원하는 이미지를 생성합니다. 

퍼퓨전은 작은 크기의 모델과 짧은 훈련 시간에도 불구하고 효율성 측면에서 스테이블 디퓨전이나 미드저니와 같은 선도적인 AI 이미지 생성기의 성능을 능가한다고 엔비디아 측이 논문에서 밝혔습니다.

■ 메타가 가상현실(VR) 헤드셋 없이도 접속할 수 있는 메타버스 게임 앱을 개발하고 있습니다. 지난주 테스트 버전으로, 메타버스 '호라이즌 월드'에서 플레이할 수 있는 게임 '슈퍼 럼블(Super Rumble)'을 출시했습니다.

앞서 메타는 이미 지난해 호라이즌 월드의 모바일 앱을 개발한 것으로 알려졌습니다. 그러나 완성도가 기대에 못 미치고, 게임과 같이 사용자를 끌어들일 콘텐츠가 부족하다는 판단에 따라 출시를 연기했습니다.

이어서 업계 주요 소식 전해드립니다.

업계 동향

(사진=셔터스톡)
(사진=셔터스톡)

■ 일론 머스크가 트위터의 브랜드명을 'X'로 바꾸고 '애브리싱 앱'으로 전환하겠다는 계획을 밝혔습니다. 기존의 메시징과 이미지 및 동영상 유통은 물론 전자상거래와 뱅킹까지 가능한 '슈퍼 앱'을 구축하겠다는 의도입니다.

슈퍼앱은 다양한 방법으로 사용자 기반을 확대하고 수익 창출에 최적화할 수 있다는 점에서 소셜미디어 앱 회사라면 꿈꿀만한 아이디어이지만, 그만큼 현실화하기 어렵다는 지적이 나옵니다.

■ 생성 AI 개발붐으로 GPU, 즉 그래픽처리장치가 품귀 현상을 빚는 가운데 일부 회사가 게임용 GPU를 대안으로 사용하고 있어 화제입니다. 

미국의 자율주행 스타트업 컴마 AI가 컴퓨팅 인프라 구축을 위해 AMD의 게이밍 GPU를 구매했는데요, 이 칩으로 7.38 페타플롭의 컴퓨팅 성능을 확보했다고 밝혔습니다. 앞으로 게임용 GPU가 데이터센터에서 컴퓨팅 파워를 구축하는데 안정적으로 쓰일 수 있을지 주목됩니다.

SK하이닉스 4세대 HBM (사진=SK하이닉스)
SK하이닉스 4세대 HBM (사진=SK하이닉스)

■ SK하이닉스와 삼성전자가 선두 경쟁 중인 HBM 즉 고대역폭 메모리 시장에 미국 마이크론이 가세했습니다. HBM은 여러 개의 D램을 수직으로 연결해 데이터 처리 속도를 큰 폭으로 올린 차세대 D램 제품으로, 생성 인공지능 구축에 필수적인 칩입니다. 

마이크론은 그동안 HBM 분야에서 두각을 나타내지는 못해왔는데요, 최근 업계 최고 수준의 처리 속도를 내는 HBM3를 개발해서 경쟁에 뛰어들었습니다. 
■ 국내 AI 기업인 업스테이지가 자체 개발한 생성 AI 모델이 허깅페이스에서 운영하는 ‘오픈 LLM(대형언어모델) 리더보드’ 평가 점수에서 72.3점을 획득해 챗GPT의 기반인 'GPT-3.5' 성능을 뛰어넘고 1위를 차지했다고 밝혔습니다.

허깅페이스의 오픈 LLM 리더보드는 전 세계 500여개의 오픈소스 모델의 추론과 상식 능력, 언어 이해 종합능력 및 환각현상 방지 등 4가지 지표의 평균 점수로 순위를 매깁니다.

정병일 기자 jbi@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지