앤트로픽이 인공지능(AI) 학습에 사용할 웹사이트와 제외할 웹사이트를 구분해 명단을 따로 관리해 온 사실이 밝혀졌다.
비즈니스 인사이더는 23일(현지시간) 외주 업체가 작성한 앤트로픽 관련 문서를 입수, 웹사이트를 화이트리스트와 블랙리스트로 구분해 관리했다고 보도했다.
이는 앤트로픽이 AI 학습 과정에서 어떤 사이트의 정보를 활용하고, 어떤 정보를 의도적으로 제외했는지를 보여주는 민감한 자료다.
문제는 이 문서가 앤트로픽이 직접 작성한 것이 아니라, 데이터 라벨링 외주업체 서지 AI(Surge AI)가 작성한 자료라는 점이다. 앤트로픽은 이에 대해 “문서의 존재 자체를 오늘 처음 알았다”라며 책임을 부인했고, 서지 AI는 아무 답도 하지 않았다.
공개된 문서에 따르면, 서지 AI는 앤트로픽의 AI 모델 학습에 "도움이 되고, 정직하고, 해가 되지 않게 하기 위해" 콘텐츠 출처를 명확히 선별했다.
‘허용된 사이트(화이트리스트)’에는 하버드대학교, 예일대학교, 블룸버그, 뉴잉글랜드 의학저널, 유엔 조약 목록, 미국 국립기록청, 메이요 클리닉, 케임브리지대학교 출판사, 피치북, 인베스팅닷컴 등 120개 이상의 기관과 매체가 포함됐다.
‘금지된 사이트(블랙리스트)’에는 뉴욕 타임스, 월스트리트 저널, 레딧, 스탠포드대학교, 와일리, 하버드 비즈니스 리뷰 등 50여곳의 소스가 명시돼 있다.
리스트가 만들어진 시점은 2024년 11월로, 이후 2025년 5월 업데이트된 문서에서도 포함돼 있다.
또 이 문서는 원래 구글 드라이브에서 누구나 접근이 가능한 상태로 공유돼 있었으며, 비즈니스 인사이더가 확인 요청을 한 직후 비공개로 전환됐다.
이는 단순한 기획 문서가 아닌, 앤트로픽의 강화 학습(RLHF) 프로젝트에서 실제 작업자들에게 주어진 지침이다. 작업자들은 이 리스트를 바탕으로 AI에 요약 요청을 하거나, 콘텐츠 정확성을 평가하고, 인용을 테스트하는 과제 등을 수행했다.
서지 AI뿐만 아니라, 경쟁사인 스케일 AI도 최근 비슷한 내부 문서 노출 사례가 발생하는 등 AI 산업 전반의 기밀 관리 취약성이 드러난 사건으로 평가된다.
또 AI 훈련 과정에서 특정 콘텐츠를 선택적으로 활용하는 것은 AI가 어떤 기준에 따라 세계를 이해하게 될지에 큰 영향을 미친다는 분석이다. 정치적 성향이 치우치면, 편향 문제를 유발할 수 있다.
한편, 이번 문서에는 블랙리스트 선정의 사유가 포함되지는 않았다. 그러나 일부 사이트는 AI 학습을 위한 무단 콘텐츠 수집에 대해 강하게 반발하거나 소송 중이었던 것으로 나타났다.
뉴욕 타임스는 오픈AI에 이어, 앤트로픽의 무단 콘텐츠 사용에 대해서도 IP 보호를 위한 조치를 취했다고 밝혔다.
레딧은 2025년 초 앤트로픽을 무단 접속 혐의로 고소했다. 월스트리트 저널의 모회사 다우존스 역시 최근 AI 스타트업 퍼플렉시티를 상대로 비슷한 소송을 진행 중이다.
박찬 기자 cpark@aitimes.com
