최근 미국에서는 인공지능(AI) 기업들의 모델 학습을 위한 웹 데이터 무차별 수집이 뜨거운 이슈입니다. 오픈AI나 앤트로픽, 구글, 퍼플렉시티 등 대형언어모델(LLM) 기업은 물론 동영상 생성 전문 런웨이도 유튜브 콘텐츠를 동의없이 긁어 모은 것으로 알려졌습니다.
이런 행태를 지적하는 보도가 올 들어 부쩍 늘어났습니다. 얼마 전에는 오픈AI와 앤트로픽, 아마존, 바이트댄스 등이 대표적인 웹 크롤러라는 소식이 전해졌습니다.
특히 지난 주말에는 런웨이가 국내 주요 엔터테인먼트 회사의 유튜브 채널 동영상으로 모델을 학습했다는 의혹이 제기됐습니다.
30일에는 최신 뉴스가 추가됐습니다. 웹 크롤러가 최근 일제히 업데이트됐다는 내용입니다.
웹크롤러에 대한 이야기가 늘어나며, 상당수 사이트들은 이를 차단하기 위한 조치에 나서고 있습니다. 대표적인 것이 robots.txt에 크롤러 거부 의사를 밝히는 것입니다.
물론 이는법적인 강제성이 있는 것은 아니고, 우회도 가능한 것으로 알려졌습니다. 하지만 웹사이트의 주인이 데이터 수집을 거부했는데도 데이터를 긁어간다면 도덕적인 비난을 피할 수 없습니다.
따라서 등장한 방법은 크롤러의 이름을 바꾸는 것입니다. 404 미디어에 따르면, 앤트로픽은 기존의 '앤트로픽-AI(ANTHROPIC-AI)'와 '클로드-웹(CLAUDE-WEB)'이라는 두개의 AI 스크래퍼 봇이 잇달아 차단되자, 현재는 '클로드봇(CLAUDEBOT)'으로 자료 수집에 나섰다고 합니다.
각 웹사이트들이 robots.txt를 업데이트하지 않는 한, 이를 거부한다는 의사를 밝힌 것이 아니라는 논리입니다.
물론 클로드봇을 차단 리스트에 포함하면, 또 새로운 봇을 내놓으면 됩니다. '캐치 미 이프 유 캔'이라는 영화 제목이 자연스럽게 떠오릅니다.
이는 앤트로픽만의 문제가 아니라고 합니다. 애플과 메타도 각각 지난 달과 지난 주에 새로운 봇을 내놓았다고 합니다. 또 이런 상황을 추적해서 정보를 공유하는 '다크 비지터(Dark Visitor)'와 같은 사이트도 덩달아 인기라고 합니다.
웹 크롤링 문제는 국내에서는 아직 체감도가 떨어지는 것이 사실입니다. 주요 AI 기업의 웹 스크래핑은 영어가 주 타깃이기 때문입니다.
하지만 프론티어 모델들도 다국어 능력이 중요해지는 상황인데다, 한국어 능력을 강화한 모델이 점차 늘어나는 추세입니다.
특히 런웨이의 유튜브 채널 리스트에서도 볼 수 있듯이 국내는 K-팝이나 여행, 음식 관련 콘텐츠들이 꽤 인기입니다. 국내 관련 사이트들의 크롤링이 이미 이뤄지고 있다고 해도 놀랄 일은 아닙니다.
이어 29일 주요 뉴스입니다.
■ 애플, 아이폰 16 출시 한달 뒤에나 AI 기능 탑재 가능
애플이 9월 출시되는 아이폰 16에 AI 기능을 하나도 못 집어넣을 것이라는 전망입니다. 대신 한달 뒤 업데이트로 일부 AI 기능을 반영한다고 합니다. AI 출시 일정이 점점 늦어지고 있습니다.
■ 모건 스탠리 “엔비디아 블랙웰 서버 한대당 41억 이상”
엔비디아 최신형 GPU를 장착한 서버 가격이 하늘을 찌르고 있습니다. 36개짜리가 28억원, 72개짜리는 최소 41억원이라고 합니다. 서울 시내 아파트 가격을 보는 것 같습니다.
생성 AI가 슨 글을 사람처럼 보이게 하는 방법에 이어, 사람이쓴 글을 AI가 생성한 것처럼 보이게 하는 것이 유행이 될수도 있다고 합니다. 뭐든 좋은 것을 따라하기 마련인데, 그만큼 생성 AI 글쓰기 수준이 높아졌다는 말입니다.
AI타임스 news@aitimes.com
