마크 저커버그 메타 CEO가 저작권 침해 소송에서 불법 데이터셋이란 것을 알면서도 인공지능(AI) 모델 학습에 사용하도록 승인했다는 의혹을 전면 부정했다.
이 사실은 16일(현지시간) 코미디언 사라 실버맨과 타네히시 코츠를 포함한 작가들이 메타와의 저작권 침해 소송 과정에서 법원에 제출한 자료를 통해 밝혀졌다.
실버맨 등은 저커버그 CEO가 불법 복제물이 포함된 것으로 보이는 AI 학습 데이터셋 '립젠(LibGen)'을 AI 모델 훈련에 사용하도록 승인했다고 주장했다.
이에 대해 그는 지난해 말 진술에서 “립젠에 대해 정말 들어본 적이 없다”라고 부인했다. “립젠에 대해 질문하는 건 이해하지만, 나는 전혀 알지 못한다”라며 “그것에 대한 지식이 없다”라고 증언했다.
그러나 저커버그 CEO는 립젠과 같은 데이터셋 사용을 금지하는 것이 왜 불합리한지 설명하며 반박했다. 그는 “유튜브 일부 콘텐츠가 저작권이 있다는 이유로 유튜브 사용을 금지할 수는 없다”라고 주장하며 “모든 것을 일률적으로 금지하는 것이 항상 올바른 선택은 아닐 수 있다”라고 강조했다.
다만, “메타는 저작권이 있는 자료로 학습할 때 신중해야 한다”라며 “경우에 따라 팀이 해당 자료를 다루지 않도록 해야 할 수도 있다”라고 덧붙였다.
한편, 원고 측은 메타가 립젠에서 제공하는 불법 복제된 책과 저작권이 있는 책을 비교해 사용했다는 내용이 담긴 수정 소장을 제출했다.
원고 측은 메타가 이를 통해 출판사와의 라이센스 계약을 체결할지 여부를 판단했다고 주장했다. 또 메타가 립젠을 사용해 '라마 3'를 훈련했을 뿐 아니라 차세대 '라마 4'를 훈련하는 데 사용하고 있다고 주장하고 있다.
이 외에도 라마가 저작권 자료로 훈련됐다는 것을 숨기기 위해 ‘감독 샘플(supervised samples)’을 미세조정에 삽입했다고 주장한다.
또 'Z-라이브러리(Z-Library)'에서 불법 전자책을 다운로드해 라마 훈련에 사용했다고도 밝혔다. 이 사건은 2024년 4월까지 발생했다고 전해졌다.
Z-라이브러리는 여러 출판사로부터 도메인 압수 및 콘텐츠 제거와 같은 법적 조치를 받았으며, 2022년에는 이를 운영한 러시아인들이 저작권 침해와 사기, 돈세탁 등 혐의로 기소됐다.
박찬 기자 cpark@aitimes.com
- 메타, 라마3 개발 당시 "목표는 오픈AI...미스트랄은 경쟁 대상 아니야"
- "저커버그, 불법 복제 책 알면서도 AI 학습에 사용 허락"
- 메타, '사실 확인' 프로그램 중단 선언..."트럼프에 아첨 심해" 반발 격화
- 메타 AI 챗봇 "미국 대통령은 바이든"...긴급 수정 들어가
- "메타, 불법 도서 82TB 분량 토렌트로 전송해 AI에 학습"
- 메타, AI 학습 데이터 저작권 소송 막는데 실패
- 메타, 프랑스 최초 AI 저작권 침해 소송 당해
- 저커버그 "라마 모델 10억 다운로드 달성"
- 역대 가장 큰 '윤리적' 데이터셋 등장..."AI 기업에 경종 되길"
- 메타도 AI 저작권 소송서 승소...판사 "공정 사용 인정하는 것은 아니야"
