(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI) 학습을 위해 인터넷 커뮤니티나 SNS의 게시물을 사용하는 것에 대한 문제가 떠올랐다. 이제까지 관련 기업은 사용약관에 이를 고지하는 정도에 그쳤는데, 미국 정부가 이 문제의 본격 검토에 나섰다.

테크 전문 와이어드는 15일(현지시간) 레딧이 미국 연방무역위원회(FTC)로부터 AI 모델을 교육하기 위해 제3자와 사용자 생성 콘텐츠를 판매, 라이센스 또는 공유하는 것에 대한 질문 서한을 받았다고 보도했다. 레딧 말고도 같은 취지의 요청을 받은 회사가 더 있는 것으로도 달려졌다.

이에 따르면 미국 정부의 독점 금지 규제 기관인 FTC는 불공정하거나 기만적인 거래 관행에 연루된 것으로 밝혀진 기업을 제재할 권한을 갖고 있다. 이번 조사는 사용자 생성 콘텐츠를 AI 학습에 제공하는 것에 대한 국회의원과 권리 단체 등의 개인 정보 보호 위험 및 공정성, 저작권 등에 대한 의문을 반영한다고 전했다.

현재 미국 대부분 매체는 레딧의 기업공개(IPO) 문제에만 초점을 맞추고 있다. 이 회사는 65억달러(약 8조6600억원)의 기업가치로 상장을 앞두고 있다.

하지만 와이어드는 170억개의 게시물과 댓글이 사용자들의 별도 동의 과정 없이 AI 학습에 활용되는 것에 대해 근본적인 의문이 생기고 있다고 지적했다. 레딧은 올해 초 구글과 연간 6000만달러(약 800억원) 규모의 대형 저작권 계약을 맺은 것으로 알려졌다.

커뮤니티나 SNS는 실시간 뉴스를 반영할 수 있는 가장 좋은 수단이다. 실제로 일론 머스크의 xAI가 내놓은 챗봇 '그록'은 X(트위터)를 통해 실시간 이슈에 대한 답을 내놓을 수 있다는 것이 가장 큰 장점으로 꼽힌다.

메타 역시 '메타AI'에 비슷한 방법을 적용하는 것으로 알려졌다. 대부분 소셜 미디어 회사는 사용 약관에 사용자 데이터를 회사가 사용할 수 있다는 조항을 가지고 있다.

하지만 이 문제는 그리 간단하지 않다. SNS 회사들은 사용자들로부터 자신들의 데이터를 활용해 각종 사업을 펼치는 문제와 관련해 다수의 소송을 진행하고 있다.

실제로 AI 모델을 훈련하기 위해 온라인에서 수집된 데이터를 사용하는 문제에 대해서는 많은 질문이 제기됐다. 여기에는 콘텐츠의 진정한 소유자가 누구인지를 따지는 문제와 개인 데이터 유출 가능성 등이 포함돼 있다.

레딧은 구글과의 데이터 제공 계약이 중요하다고도 밝혔다. 투자자 프리젠테이션을 통해 "우리는 데이터 이점과 지적 재산이 미래 AI 시스템 훈련의 핵심 요소가 될 것으로 기대한다"라는 입장을 밝혔 바 있다.

레딧은 수년 동안 다른 회사에 데이터 라이선스를 제공해 왔으며, 연구원과 소프트웨어 개발자는 레딧 데이터를 사용해 사용자 행동을 연구하고 기능을 구축했다. 특히 지난해 7월에는 챗봇 학습을 위해 게시물을 허락 없이 가져다 쓰면 안 된다며, 수수료를 도입했다.

하지만 이런 행동에 대해 아무 이득을 얻지 못하는 사용자들의 반발도 불러 일으켰다. 

이 문제는 AI 학습 데이터 저작권은 물론 레딧의 상장과 맞물려 큰 문제로 떠오를 가능성이 있다는 분석이다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • 레딧, 연간 800억 규모 AI 데이터 학습 계약
  • 퍼플렉시티 AI, 실시간 지식 반영하는 '온라인 LLM'으로 도전장
  • 머스크의 챗봇 '그록', 다음주 X 유료 서비스 통해 출시