(사진=셔터스톡)
(사진=셔터스톡)

네덜란드의 저작권 감시 단체가 인공지능(AI) 학습에 사용하는 데이터셋 배포를 중단시켰다고 밝혔다. 이 단체는 20년이 넘는 기간 동안 불법 복제물을 단속하던 곳으로, 이제는 AI 학습 데이터까지 영역을 넓혔다.

로이터는 13일(현지시간) 네덜란드에 본사를 둔 브레인(BREIN)이 AI 모델 훈련용 데이터셋 배포를 중단시켰다고 보도했다.

브레인은 성명을 통해 "이 데이터셋에는 수만권의 책과 뉴스, 수많은 영화 및 TV 시리즈의 네덜란드어 자막이 포함돼 있다고 밝혔다.

데이터셋 제작자는 불법 여부를 확인하고 배포 중단에 동의, 다운로드가 가능한 웹사이트에서 삭제했다. 브레인은 네덜란드 개인정보 보호 규칙에 따라 배포자의 신원을 공개하지 않았다.

바스티안 반 람쇼르스트 브레인 이사는 "이 데이터셋이 얼마나 많은 AI 회사의 훈련에 사용됐는지는 불분명하다"라고 말했다.

또 "데이터셋 내용을 파악하는 것은 매우 어렵지만, 미래에 발생할 수 있는 소송을 피하기 위해 조치하려고 애쓰고 있다"라고 말했다.

(사진=브레인)
(사진=브레인)

이처럼 저작권 감시 단체들이 AI 데이터셋에 접근한 것은 처음이 아니다. 지난해 덴마크에서는 덴마큰 권리 연합이라는 저작권 보호 단체가 '북3(Book3)'라는 대형 데이터셋을 강제로 삭제한 바 있다. 

북3는 120만여권의 서적이 포함된 것으로 알려진 파일로, 엔비디아가 대형언어모델(LLM) '네모(NeMo)'의 학습에도 사용된 것으로 알려졌다. 이 때문에 엔비디아는 작가 3명으로부터 소송을 당했다.

또 브레인은 1999년부터 비디오 불법 복제 단속을 시작으로 2010년에는 토렌트 불법 공유와 관련한 소송에서 승리하며 유명해졌다. 이제는 AI 학습 데이터로 영역을 확장한 셈이다.

브레인 측은 "데이터셋 제작자는 다시는 침해하지 않겠다고 약속하는 성명서에 서명했으며 데이터셋을 다운 받은 기업에 대한 정보를 제공했다"라고 밝혔다.

브레인은 이 데이터셋을 사용한 AI 모델을 조사하고 관련 당사자에게 연락할 예정이다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지