(사진=셔터스톡)
(사진=셔터스톡)

빅테크 기업들이 온라인 커뮤니티인 레딧에서 데이터를 수집해 인공지능(AI)을 학습시키는 데 차질이 생길 전망이다.

뉴욕타임스(NYT)는 18일(현지시간) 레딧이 API 액세스에 요금을 부과하는 방식으로데이터를 유료화 할 계획이라고 보도했다. 

스티브 허프먼 레딧 CEO는 "앞으로 레딧에서 데이터를 크롤링하고 사용자에게 그 가치를 전혀 돌려주지 않는 기업은 비용을 지불해야 할 것이다"라고 말했다.

레딧은 API 액세스에 대해 청구할 내용에 대한 세부 사항을 다듬고 있으며 앞으로 몇 주 안에 가격을 발표할 예정이다.

그동안 빅테크 기업들은 레딧의 API를 통해 커뮤니티 사용자들이 나눈 대화 기록을 다운로드할 수 있었다.

2005년에 개설된 레딧은 18년간 서비스를 제공해온 온라인 커뮤니티다. 이 기간 동안 쌓인 방대한 대화 기록들은 대규모 언어 모델(LLM)을 학습시킬 수 있는 중요한 데이터가 됐다. 구글, 마이크로소프트와 같은 빅테크 기업들은 이렇게 쌓인 데이터를 이용하여 자사의 LLM을 학습시킬 수 있다.

실제로 구글의 대화형 AI인 ‘바드(Bard)’와 오픈AI의 챗GPT는 레딧 데이터를 훈련 데이터로 사용했다. 

이와 관련해 스티브 허프먼은 "레딧의 말뭉치는 매우 귀중하다. 우리가 이런 귀중한 자료를 기업들에게 공짜로 제공할 이유는 없다"고 설명했다. 레딧의 데이터로 빅테크 기업들이 규모를 키워도 레딧이 얻는 이득은 없다는 입장이다.

그런가 하면 전문가들은 레딧이 올해 하반기에 기업 공개(IPO)를 계획하고 있기 때문에 새로운 수익원이 필요할 것이라고 내다 봤다.

한편 지난 12월, 일론 머스크 테슬라 CEO는 자신의 트위터 계정에 "오픈AI가 학습 목적으로 트위터 데이터베이스에 접근할 수 있다는 사실을 들었다"며 트위터의 데이터에 기업들이 접근하는 것에 불편한 입장을 밝힌 바 있다.

그리고 지난달 마침내 트위터는 자사 데이터에 대한 타사 개발자의 무료 액세스를 제한하고 API 액세스를 전면 유료로 전환했다. 

박찬 위원 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지