(사진=셔터스톡)
(사진=셔터스톡)

유튜브 크리에이터들이 오픈AI가 동의 없이 자신들의 유튜브 동영상의 대본으로 자사의 AI 모델을 훈련시킨 혐의로 집단 소송을 제기했다.

5일(현지시간) 테크크런치에 따르면 유튜브 크리에이터인 데이비드 밀레트 등은 오픈AI가 '챗GPT'와 기타 생성 AI 모델을 훈련하기 위해 자신들의 동영상 대본을 무단으로 사용한 혐의로 집단 소송을 제기했다.

밀레트와 크리에이터들은 소송에서 오픈AI의 훈련 과정에서 데이터가 유출됐을 수 있는 모든 유튜브 사용자 및 크리에이터에게 500만달러(약 75억원) 이상의 손해배상할 것을 요구했다. 

대부분 AI 모델은 공공 웹사이트와 웹상의 데이터셋에서 수집된 데이터를 기반으로 훈련한다. AI 기업들은 공개된 웹 데이터를 사용하는 것은 법적으로 허용한 '공정 사용'에 해당한다고 주장한다. 그러나 많은 저작권 소유자들은 이에 동의하지 않다.

특히 최근에는 데이터 소스가 고갈되며 동영상 대본이 중요한 훈련 데이터로 꼽히고 있다.

뉴욕타임스는 지난 4월에 오픈AI가 'GPT-4'를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 동영상의 대본을 무단으로 사용했다고 보도했다.

오픈AI는 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용했다. 그 결과 지난해 공개된 GPT-4는 재활용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다. 뉴욕타임스는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.

또 지난달 프루프 뉴스는 앤트로픽, 애플, 세일즈포스, 엔비디아를 포함한 여러 기업이 수십만 개의 유튜브 비디오 자막을 포함하는 데이터셋인 더 파일(The Pile)을 사용해 생성 AI 모델을 훈련했다고 보도했다. 더 파일에 자막이 포함된 많은 유튜브 크리에이터들은 이에 대해 알지 못했고 동의하지 않았다. 애플은 이후 해당 모델을 자사 제품의 AI 기능에 사용할 의도가 없었다는 성명을 발표했다.

유튜브 영상을 AI 학습에 활용한 것은 유튜브 운영사인 구글도 마찬가지다. 지난해 구글은 생성 AI 모델 훈련을 위해 더 많은 사용자 데이터를 활용할 수 있도록 서비스 약관을 확장했다. 이전 약관에서는 구글이 유튜브 데이터를 비디오 플랫폼 외의 제품 구축에 사용할 수 있는지 명확하지 않았지만, 새로운 약관에서는 이러한 제한이 상당히 완화됐다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지