애플과 엔비디아 등 빅테크들이 대량의 유튜브 자료를 무단으로 사용했다는 지적이 나왔다. 이는 인기 있는 오픈 소스 데이터셋을 AI 학습에 사용한 결과로, 사용 기업은 물론 데이터셋 제작자와 유튜브까지도 문제가 지적되고 있다.
프루프 뉴스와 와이어드는 17일(현지시간) 애플, 엔비디아, 앤트로픽, 세일즈포스 등이 사용자의 동의 없이 약 17만3000건이 넘는 유튜브 영상 자막을 AI 모델 훈련에 사용했다고 보도했다.
문제는 이 유튜브 자막이 비영리 오픈 소스 단체인 일루서AI가 논문과 온라인 콘텐츠, 대화 내용, 유튜브 등을 컴파일한 대규모 데이터셋 ‘더 파일(The Pile)’의 일부라는 점이다.
이 데이터셋은 상당수 AI 기업이 모델 훈련에 활용하는 것으로 알려졌으며, 이전에도 저작권을 포함한 문서를 포함한 것으로 알려져 소송의 근거로도 제시됐다.
이번에는 여기에 포함된 4만8000개 이상 유튜브 채널의 17만3536개 동영상 자막이 사용된 것으로 알려졌다.
더 파일에는 유튜브 영상이나 이미지는 포함되지 않았다. 하지만 유명 기술 평론가나 세계 최다 구독자를 보유한 유튜버 미스터 비스트를 포함해 뉴욕타임스, BBC, ABC 뉴스 등의 영상 자막이 포함돼 있다.
이는 원래 소규모 기업과 개인이 시청각 교육 데이터로 활용하기 위해 제작한 것인데, 더 파일을 통해 빅테크에도 흘러 들어가게 된 것이다.
구글은 허가 없이 유튜브로부터 자료를 가져다 쓰는 것을 금지하고 있다. 지난 4월 오픈AI가 100만 시간 이상 동영상을 유튜브에서 가져다 사용했다는 소식이 들리자, 닐 모한 유튜브 CEO는 이는 이용 약관을 위반한 것이라고 지적했다.
이에 대해 앤트로픽은 "유튜브 자막은 더 파일의 일부일 뿐"이라며 "유튜브 이용 약관은 유튜브 직접 사용만을 대상으로 하기 때문에, 더 파일 사용이 문제가 된다면 더 파일 제작자에게 문의해야 한다고 지적했다.
반면 이에 대한 유튜브 크리에이터들은 일제히 비난을 퍼부었다. 자막 일부가 AI 학습에 사용했다는 것을 확인한 데이브 위스커스 네뷸라 CEO는 "이것은 도둑질"이라고 말했다. 자신들은 자막 제작을 위해 시간과 노력, 자금을 투입했다는 설명이다.
애플, 엔비디아, 엘루서AI 등은 이에 대해 논평을 내놓지 않았다.
구글도 이 문제에 전혀 책임이 없는 것은 아니라는 지적도 나왔다. 무단 스크래핑을 방지하기 위한 조치를 취해왔다고 말하지만, 그 조치가 구체적으로 어떤 것인지 심지어 데이터 사용이 정책 위반인지도 제대로 설명하지 않았다는 내용이다.
구글 역시 '제미나이'를 학습하는 데 동의 없이 유튜브 데이터를 학습했다는 지적도 나온 바 있다.
특히 톰스하드웨어는 "이런 유튜브 자막 데이터로 학습한 AI 챗봇이 조만간 '추천과 좋아요 잊지 마세요'라는 말로 채팅을 마무리한다고 해도 놀랄 일이 아닐 것"이라고 비꼬았다.
박찬 기자 cpark@aitimes.com
- 피차이 "오픈AI, 유튜브로 AI 학습했다면 법적으로 해결할 것"
- 오픈AI·메타·구글 "협상 대신 소송"...불법인 줄 알면서 인터넷 데이터 퍼가
- 구글, 오픈AI '소라' 견제..."학습에 유튜브 사용하려면 허락 받아야"
- "런웨이, 유튜브· 불법 영화로 비디오 생성 AI 훈련"
- JYP·SM·YG·하이브 영상도 AI 학습 무단 사용 의혹...런웨이 '유튜브 리스트' 파문 확산
- "엔비디아, 유튜브·넷플릭스 영상으로 AI 학습 지시"
- 오픈AI, 유튜브 크리에이터들로부터 집단 소송..."동영상 대본으로 AI 학습"
- 앤트로픽, 작가들로부터 두번째 AI 저작권 고소 당해
- 애플도 AI 훈련 저작권 침해 혐의로 집단소송 당해
