(사진=셔터스톡)
(사진=셔터스톡)

오픈AI의 웹 크롤러를 차단하는 사이트가 급격히 감소했다는 소식이다. 이는 대형 미디어 회사들과 잇달아 라이선스 계약을 맺은 결과라는 분석이다.

와이어드는 7일(현지시간) 웹 검사 사이트 오리지널리티 AI의 데이터를 인용, 오픈AI의 웹 스크롤링 봇 ‘GPT봇(GPTBot)’을 차단하는 미디어 웹 사이트 수가 한때 전체 웹 사이트의 3분의 1에서 현재는 4분의 1로 감소했다고 전했다.

이에 따르면 GPT봇은 가장 인지도가 높고 경쟁사 봇보다 차단 빈도가 더 높다. 오리지널리티 AI가 1000개의 인기 뉴스 매체를 분석한 결과, robots.txt를 사용해 GPT봇을 차단한 미디어 웹사이트의 수는 2024년 4월 최고 33%까지 증가했다.

이후 감소세를 보이다가 최근에는 미디어 웹 사이트의 25% 수준까지 줄었다. 특히 주요 뉴스 매체 그룹으로 범위를 좁히면, 차단률은 올해 초 90%에서 50%까지 감소했다.

이는 여러 미디어 회사들이 오픈AI와 콘텐츠 라이선스 계약을 맺은 데 따른 결과다.

지난 5월 도트대시메러디스가 오픈AI와 계약을 맺은 뒤부터 숫자가 급격히 감소했다. 이후 5월 말 복스와의 계약 발표이후 다시 감소했으며, 8월 콘데 나스트가 계약을 체결했을 때도 마찬가지였다. 이후 별 다른 계약이 이어지지 않자, 현재는 감소세가 멈췄다.

지금까지 오픈AI는 12개 미디어와 라이선스 계약을 체결했다. 여기에는 ▲타임(6월)▲애틀랜틱(5월) ▲복스 미디어(5월) ▲뉴스코프(5월) ▲도트대시 메러디스(5월) ▲파이낸셜 타임스(4월) ▲프랑스 르 몽드(3월) ▲스페인 프리사(3월) ▲독일 악셀 스프링거(2023년 12월) ▲AP통신(2023년 7월) ▲미국 저널리즘 프로젝트(2023년 7월) 등이 포함된다.

계약한 미디어 대부분은 robots.txt 파일을 업데이트해 GPT봇의 크롤링을 허용했지만, 예외도 있다. 타임지는 GPT봇을 계속 차단하고 있다. 

이에 대해 카일라 우드 오픈AI 대변인은 “계약이 체결되면 오픈AI는 더 이상 크롤링하는 방식으로 데이터에 액세스하지 않기 때문에, 별로 중요한 문제는 아니다”라며 "우리는 직접 피드를 활용한다"라고 설명했다.

반면, 음모론 사이트 인포워스와 코미디 매체 디 어니언과 같이 라이선스 계약을 체결하지 않았음에도 자발적으로 웹 크롤러 차단을 해제한 매체들도 있다. 이는 '서치GPT'의 검색 결과에 포함되려는 의도다.

하지만 오픈AI 웹 크롤러 차단 감소세가 지속될지는 불분명하다.

존 길햄 오리지널리티 AI CEO는 “퍼블리셔들이 차단을 협상 전략으로 보기 시작하면, 미래에 다시 차단이 급증할 수 있다”라고 지적했다. 먼저 차단하는 것이 오픈AI가 협상 테이블로 나오게 만드는 방법이라는 설명이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지