(사진=셔터스톡)
(사진=셔터스톡)

동영상 생성 인공지능(AI) 스타트업 런웨이가 유튜브 동영상과 불법 복제 영화로 AI 모델을 훈련했다는 의혹이 나왔다. 라이벌인 오픈AI의 '소라' 역시 유튜브 자료를 무단으로 사용했다는 의심을 받고 있다.

404 미디어는 25일(현지시간) 런웨이가 수천개의 유튜브 동영상과 불법 복제 영화로 자사 AI 비디오 생성기를 훈련했다고 보도했다.

이에 따르면 404 미디어가 전 런웨이 직원을 통해 확보한 훈련 데이터 스프레드시트 사본에는 넷플릭스, 디즈니, 닌텐도, 록스타 게임즈 등 주요 엔터테인먼트 회사의 유튜브 채널과 더 버지, 더 뉴요커, 로이터 , 와이어드 등 뉴스 매체의 채널이 포함돼 있다. 이 외에도 일부 유명 크리에이터 채널도 발견됐다.

이는 전 런웨이 직원의 폭로에 따른 것이다. 그는 "이 스프레드시트의 링크들은 모델을 구축하기 위해 양질의 동영상을 찾기 위한 런웨이의 전사적인 노력의 결과물"이라며 "해당 링크들은 구글의 차단을 피하기 위해 프록시를 사용, 모든 채널에서 모든 동영상을 다운로드하는 대규모 웹 크롤러의 입력으로 사용됐다"라고 밝혔다.

또 런웨이의 데이터셋에는 유튜브 채널 외에도 애니메이션 및 기타 콘텐츠를 무료로 시청할 수 있는 불법 복제 사이트 링크도 포함돼 있다고 전했다.

다만 런웨이가 이 스프레드시트의 모든 비디오를 사용해 비디오 생성 AI 모델 ‘젠-3 알파’를 훈련시켰는지는 불분명하다.

아나스타시스 게르마니디스 런웨이 공동 창업자는 지난 6월 젠-3 출시 당시 "선별된 내부 데이터셋을 사용해 AI 모델을 훈련한다"라고 말했지만, 자세한 내용은 공유하지 않았다.

이처럼 유튜브 콘텐츠를 AI 학습에 사용했다는 보도는 처음이 아니다.

미라 무라티 오픈AI CTO는 소라의 학습 데이터로 유튜브 콘텐츠를 사용했냐는 질문에 "잘 모른다"라고 대답해 문제가 됐으며, 가장 최근에는 애플과 엔비디아, 앤트로픽, 세일즈포스 등 빅테크들이 사용자의 동의 없이 약 17만3000건이 넘는 유튜브 영상 자막을 AI 모델 훈련에 사용했다고 알려졌다.

한편 구글은 이에 대해 닐 모한 유튜브 CEO의 멘트를 인용했다. 모한 CEO는 지난 4월 인터뷰를 통해 “허가 없이 유튜브 동영상을 AI 모델 훈련에 사용하는 것은 서비스 약관 위반"이라고 지적했다.

런웨이 측은 논평을 내놓지  않았다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지