그동안 인공지능(AI) 저작권 문제에 대해 침묵을 지키던 메타가 라이선스 구매를 검토 중이라는 소식이 나왔다. AI 학습 데이터로 활용하는 SNS 게시글로는 모델 성능을 향상하기 어려운 것도 한몫했다는 분석이다.
비즈니스 인사이더는 23일(현지시간) 정통한 소식통을 인용, 메타가 최근 AI 학습 데이터 확보를 위한 뉴스 라이선스 구매를 검토 중이라고 보도했다.
이에 따르면 이 문제는 메타의 파트너십, 제품 및 법률 팀 리더 등이 검토 중으로, 아직 초기 단계다. 뉴스와 사진, 비디오 등이 대상인 것으로 알려졌다. 소식통 중 한명은 "메타는 누군가에게 돈을 지불하는 것 외에는 선택의 여지가 없을 수도 있다"라고 말했다.
그동안 메타는 콘텐츠 라이선싱을 위해 어떤 곳과도 공식적으로 접촉하지 않은 것으로 알려졌다. 특히 페이스북이나 인스타그램 등 SNS 분야에서는 2023년부터 기존 뉴스 매체와의 거래를 중단, 20억달러(약 2조7000억원)의 예산을 줄이는 데 성공했다.
심지어 AI 저작권에 대해서는 협상 대신 소송을 택했다는 지적까지 나왔다.
또 마크 저커버그 CEO는 올해 초 AI 모델 훈련을 위해 일반적으로 사용하는 대규모 데이터셋 '커먼 크로울(Common Crawl)'보다 더 큰 자체 데이터를 보유하고 있다고 주장했다. 이는 SNS 등을 통해 수집한 정보를 말한다.
생각이 바뀐 것은 법적 문제 탓이지만, 데이터 품질에 대한 내부 우려도 크기 때문인 것으로 전해졌다.
일반적으로 대형언어모델(LLM)의 학습에는 뉴스나 소설 등 긴 문장이 포함된 텍스트가 가장 효과적인 것으로 알려져 있다. 따라서 SNS 게시글은 고품질 데이터는 아닌 셈이다.
여기에 메타는 지난해 전문 작가들의 본격적인 저작권 소송 시작 당시, 오픈AI와 함께 고소된 경우가 많았다..
이에 대해 메타는 공식 논평을 거부했다.
임대준 기자 ydj@aitimes.com
