(사진=클라우드플레어)
(사진=클라우드플레어)

클라우드플레어가 웹사이트 운영자들이 인공지능(AI) 크롤러의 접근 권한을 세분화해 관리할 수 있도록 하는 새로운 정책 설정 도구를 선보였다. 

클라우드플레어는 24일(현지시간) 웹사이트 운영자가 자신의 콘텐츠가 어떻게 활용되는지 표현할 수 있도록 돕는 새로운 정책 ‘콘텐츠 시그널 정책(Content Signals Policy)’을 발표했다.

이는 기존 'robots.txt' 파일에 추가되는 방식으로, 웹 개방성을 유지하면서도 창작자의 권리를 보호하는 것을 목표로 한다.

웹 운영자들은 지금까지 콘텐츠를 완전히 공개해 의도치 않은 활용을 감수하거나, 아예 로그인 장벽을 세워 접근을 제한하는 두가지 극단적인 선택 사이에서 고민해야 했다.

특히, 데이터 크롤러와 스크레이퍼가 무단으로 대량의 데이터를 가져가면서도 운영자에게 아무런 보상을 하지 않는 ‘무임승차 문제’가 커지고 있다. 클라우드플레어는 이런 상황을 개선하기 위해 새로운 정책을 도입했다.

콘텐츠 시그널 정책은 검색(search), AI 입력(ai-input), AI 학습(ai-train) 등 세가지 신호를 정의한다.

운영자는 robots.txt 파일 내 주석(#) 형태로 자신의 선호도를 표시할 수 있으며, ‘yes’는 허용, ‘no’는 불허, 공란은 특정 의사를 밝히지 않음을 의미한다. 이에 따라 검색은 허용하고, 학습은 불허하며, AI 입력에는 별도 의사를 표시하지 않는 식으로 설정할 수 있다. 구글의 검색용 크롤러는 허용하지만, AI 요약용 크롤러는 차단할 수 있다는 설명이다.

이 정책은 콘텐츠가 접근된 이후 어떻게 활용될 수 있는지를 구체적으로 밝히는 점에서 기존 robots.txt와 차별화된다.

하지만, 클라우드플레어는 이것이 강제적인 기술적 차단 장치는 아니며, 일부 기업은 해당 지침을 따르지 않을 가능성도 있다고 설명했다. 따라서 운영자는 웹 애플리케이션 방화벽(WAF) 규칙이나 봇 관리 기능과 병행하는 것이 바람직하다고 권고했다.

클라우드플레어는 현재 380만개 이상의 도메인에서 관리형 robots.txt 기능을 통해 AI 학습 거부 설정을 지원하고 있으며, 이번에 발표한 정책을 robots.txt 파일에 반영할 예정이다. 무료 이용자의 경우 별도 robots.txt 파일이 없을 때 정책 설명이 담긴 주석이 자동으로 추가되지만, 실제로 어떤 활용을 허용하거나 차단할지는 전적으로 고객이 직접 결정하도록 했다.

이번 콘텐츠 시그널 정책은 퍼블릭도메인(CC0) 라이선스로 공개돼 누구나 제약 없이 사용할 수 있다.

클라우드플레어는 “웹 운영자가 자신의 콘텐츠 활용 방식을 스스로 결정할 수 있어야 한다”라며 “표준화 기구와 협력해 이 정책이 인터넷 전반에 자리 잡을 수 있도록 노력할 것”이라고 밝혔다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지