엔비디아가 인공지능(AI) 학습을 위해 저작권이 있는 콘텐츠를 무단으로 수집했다는 폭로가 나왔다.
404 미디어는 5일(현지시간) 엔비디아가 직원들에게 상업용 AI 프로젝트 개발을 위해 유튜브와 넷플릭스 등의 비디오를 다운로드하도록 지시했다고 보도했다.
이에 따르면 엔비디아는 옴니버스 3D월드 생성기, 자율주행차 시스템, 디지털 휴먼 등의 기반이 되는 새로운 AI 모델 ‘코스모스(Cosmos)’의 훈련을 위해 데이터를 수집했다.
유튜브의 탐지를 피하기 위해 엔비디아는 아마존웹서비스(AWS)의 가상머신(VM)과 IP 주소 변경 등의 방법을 사용해 콘텐츠를 다운로드한 것으로 알려졌다. AWS에서 20~30개의 VM을 사용, 하루에 80년 분량의 비디오를 다운로드했다고 전해졌다.
엔비디아는 이 행위가 저작권법을 준수한다고 주장했다. 대변인은 "엔비디아는 모든 콘텐츠 제작자의 권리를 존중하며, 우리의 모델과 연구 활동이 저작권법과 그 정신을 완전히 준수하고 있다고 확신한다"라고 밝혔다.
또 "저작권법은 특정 표현을 보호하지만, 아이디어와 데이터, 정보는 보호하지 않는다"라며 "따라서 누구든지 다른 출처에서 사실, 아이디어, 데이터, 정보를 학습하고 이를 사용해 자신만의 표현을 만들 수 있다. 공정 사용 역시 모델 훈련과 같은 변형적 목적을 위해 작품을 사용할 수 있는 능력을 보호한다"라고 주장했다.
반면 유튜브는 이에 즉각 반박했다. 유튜브 대변인은 닐 모한 유튜브 CEO의 지난 4월 발언을 인용, "AI 모델을 학습시키기 위해 유튜브를 사용하는 것은 명백한 약관 위반"이라고 밝혔다.
넷플릭스 대변인도 “콘텐츠 수집을 위해 엔비디아와 계약을 맺지 않았으며, 서비스 약관에서는 스크래핑을 허용하지 않는다”라고 말했다.
한편 일부 엔비디아 직원들이 프로젝트 관리자들에게 윤리적, 법적 우려를 제기했지만, 관리자들은 회사 고위층에서 이미 승인했다고 말한 것으로 전해졌다.
유튜브와 넷플릭스 비디오 외에도 엔비디아는 직원들에게 영화 예고편 데이터베이스인 무비넷, 비디오 게임 영상의 내부 라이브러리, 깃허브 비디오 데이터셋 웹비드 및 '인턴비드-10M'에 대한 훈련을 지시한 것으로 알려졌다. 인턴비드-10M는 1000만개의 유튜브 비디오 ID가 포함된 데이터셋이다.
또 엔비디아가 훈련에 사용했다고 전해지는 데이터 중 일부는 학술 연구나 비상업적 용도로만 사용 가능한 것으로 표시돼 있었다. 1억3000만개의 유튜브 동영상으로 구성된 'HD-VG-130M' 라이브러리는 학술 연구용으로만 사용을 허가한다.
그러나 엔비디아는 이런 조건을 무시하고, 상업용 AI 제품에 사용되는 데이터는 문제가 없다고 주장했다.
박찬 기자 cpark@aitimes.com
