구글이 인공지능(AI) 제품의 보안 취약점을 사전에 탐지하기 위한 포상금 프로그램을 신설했다.
구글은 6일(현지시간) AI 제품의 보안 결함을 찾아내는 연구자에게 보상을 지급하는 ‘AI 버그 바운티 프로그램’을 공식 발표했다.
이번 프로그램은 AI 시대에 특화된 ‘AI 보안 결함’의 정의를 구체화하고, 실제 피해로 이어질 수 있는 AI 오남용 사례를 적극 발굴하려는 조치다.
대상은 구글의 검색과 '제미나이' 앱, 지메일, 드라이브 등 AI가 적용된 주요 서비스다. 여기에서 AI 보안 결함을 발견하면 최대 2만달러(약 2800만원)의 기본 포상금을 지급하고, 보고 품질과 신규성에 따라 추가 보너스를 더해 최대 3만달러(약 4200만원)까지 받을 수 있다.
반면, 줄스(Jules)나 노트북LM(NotebookLM) 등 개별 제품이나 모델 매개변수 유출 수준의 경미한 문제는 포상금이 낮게 책정된다.
구글은 AI 취약점의 구체적인 예를 들었다. 악성 프롬프트를 주입해 '구글 홈'이 문을 열도록 유도하거나, AI가 사용자의 이메일 전체를 요약해 공격자에게 전송하는 경우 등이 이에 해당한다. 또 '구글 캘린더' 이벤트를 조작해 스마트 셔터를 열거나 조명을 끄는 등 AI를 이용한 간접적 계정 변경 및 원격 조작 시나리오도 ‘위험한 AI 행동(rogue action)’으로 분류했다.
이번 포상 프로그램은 AI 취약점을 두가지 유형으로 나눈다. 먼저 대형언어모델(LLM)이나 생성 AI의 기능을 악용해 시스템의 보안 허점을 이용하거나 사용자에게 실질적인 피해를 입히는 행위다. 또 AI 시스템을 통해 원치 않는 동작을 유발하거나 사용자의 계정과 데이터에 부적절한 변경이나 접근을 일으켜 보안과 프라이버시를 훼손하는 사례 등을 포함한다.
단순한 AI의 ‘환각’은 결함으로 간주하지 않는다. 구글은 “혐오 발언, 저작권 침해 등 AI가 부적절한 콘텐츠를 생성하는 문제는 보안 결함이 아니라 모델 품질 문제이므로, 각 제품의 피드백 채널을 통해 신고해야 한다”라고 설명했다.
구글은 이날 AI 보안 취약점 자동 수정 에이전트 ‘코드멘더(CodeMender)’도 선보였다. 이 시스템은 AI를 활용해 오픈 소스 프로젝트의 취약 코드를 탐지하고 수정하며, 현재까지 인간 연구자의 검증을 거쳐 72건의 보안 패치를 완료했다고 밝혔다.
구글은 2022년부터 AI 보안 연구자들이 자사 제품의 오남용 가능성을 테스트할 수 있도록 허용해 왔으며, 지난 2년간 연구자들에게 지급된 누적 보상금은 43만달러(약 6억원)에 달한다.
박찬 기자 cpark@aitimes.com
