퍼플렉시티가 웹사이트의 자동 스크래핑을 방지하는 장치(robots.txt)를 무시하고 크롤링을 금지한 웹사이트에도 접근하고 있다는 사실이 드러났다.
패스트 컴퍼니는 23일(현지시간) 인공지능(AI) 검색 스타트업 퍼플렉시티가 기술 매체 와이어드 웹사이트 콘텐츠를 크롤링한 사실이 드러났다고 보도했다.
검색 엔진이나 생성 AI는 크롤러라 불리는 프로그램을 사용해 인터넷에서 엄청난 정보량을 수집하고, 이를 검색 결과나 AI 학습 등에 활용한다. 웹사이트 측에서는 robots.txt라는 텍스트 파일에 해당 크롤러 방문을 금지하도록 문자열을 추가해 크롤러를 차단할 수 있다. 이는 크롤러가 준수해야 하는 규칙이지만, 준수 여부는 자율적으로 강제성은 없다.
와이어드는 퍼플렉시티가 이런 규칙을 무시하고 접근 금지된 자사 웹사이트에서 콘텐츠를 스크랩하고 있다는 증거를 가지고 있다고 주장했다.
이에 대해 아라빈드 스리니바스 퍼플렉시티 CEO는 "퍼플렉시티는 웹크롤링 방지 장치를 무시하고 거짓말을 하는 것이 아니다"라며 "와이어드가 지목한 웹크롤러는 퍼플렉시티 소유가 아니라 제3자 웹 크롤링 및 인덱싱 서비스 제공업체 소유”라고 말했다.
그리고 퍼플렉시티가 제3자 크롤러에게 와이어드 콘텐츠 크롤링을 중지하라고 요청했는지 묻자, 스리니바스는 명확한 답변을 피하며 "상황이 복잡하다"라고 말했다. 그러면서 “불법은 아니다”라고 항변했다.
퍼플렉시티 AI 모델이 와이어드 기사 제목이나 내용으로 쿼리를 만들어 검색하면, 기사를 교묘하게 교치거나 잘못된 답변을 내놓기도 한다는 주장도 나왔다.
여기에 대해서 스리니바스 CEO는 “와이어드가 퍼플렉시티 검색 엔진이 그렇게 작동하도록 유도하는 프롬프트를 사용했으며, 일반 사용자들은 그런 종류의 결과를 볼 수 없을 것”이라며 "우리는 환각이 전혀 없다고 말한 적은 없다"라고 반박했다.
퍼플렉시티는 이달 초 AI 학습 저작권 문제로 논란에 휩싸이기도 했다. 포브스가 자신들의 기사를 출처도 밝히지 않고 거의 동일하게 요약했다고 지적하며 논란이 일었다. 스리니바스는 포브스가 이 문제를 제기한 후, 생성된 기사 텍스트 내에 출처를 명시하도록 업데이트를 적용했다고 밝혔다.
더불어 "회사가 현재 선정된 출판사들과 수익 공유 계약을 체결하기 위해 노력하고 있다”라고 말했다. 출판사 이름은 공개되지 않아, 와이어드나 포브스가 여기에 포함되는지는 알 수 없다.
한편 전날에도 오픈AI와 앤트로픽이 모델 학습을 위해 robots.txt를 무시하고 무차별적 웹 데이터 수집 행위인 크롤링에 나섰다는 폭로가 나온 바 있다.
박찬 기자 cpark@aitimes.com
- "오픈AI·앤트로픽, 웹 크롤링 방지 장치 우회...데이터 무차별 수집"
- 퍼플렉시티, AI 검색에 실시간 정보 추가..."구글 검색 찾을 필요 없어"
- 퍼플렉시티, '뉴스 요약' 기능 출시했다 '도둑질' 지적
- AI 학습 데이터 '라이선스 연합' 발족..."AI 기업에 대신 돈 받아드립니다"
- 인터넷 데이터 긁어모으는 'AI 크롤러' 빅 4 공개
- 퍼플렉시티, 다단계 심층 검색 지원하는 AI ‘프로 서치’ 출시
- AI 학습 데이터 고갈되나...웹 사이트 '크롤링 차단' 급증
- "런웨이, 유튜브· 불법 영화로 비디오 생성 AI 훈련"
- NYT, AI 검색 퍼플렉시티에 콘텐츠 사용 중단 요청
