최근 오픈AI가 잇달아 대규모 학습 데이터 계약에 나선 가운데, 이 때문에 소규모 회사들은 향후 대형 기업들과의 기술 격차를 따라잡을 수 없을 것이라는 지적이 나왔다.
테크크런치는 1일(현지시간) 현재 첨단 AI의 핵심은 데이터이며, 데이터는 이제 비용이 점점 증가해 가장 부유한 회사를 제외하면 접근하기 어렵게 됐다는 업계의 분위기를 소개했다.
우선 데이터가 AI 성능에서 차지하는 비중이 점점 커진다고 강조했다. 그 예로 현직 AI 연구원의 말을 인용했다.
우선 제임스 베트커 오픈AI 연구원은 블로그를 통해 "점점 정교해지는 AI 모델의 핵심은 디자인이나 아키텍처가 아닌, 데이터셋"이라고 밝혔다. 또 "모든 모델이 같은 데이터셋으로 충분한 시간 학습하면, 성능은 거의 같아질 것"이라고 주장했다.
카일 로 앨런AI연구소 선임 응용과학자도 비슷한 뜻을 밝혔다. "안정적인 훈련 설정 단계애 접어들면 성능 향상은 데이터에서 나온다"라고 말했다.
그 예로 앨런AI연구소가 출시한 모델 '올모'와 메타의 '라마 3'는 구조적으로 매우 유사하지만, 라마 3가 훨씬 많은 데이터를 학습하는 바람에 성능 차이를 보이는 것을 들었다. 최근 더 작은 매개변수를 가진 모델이 큰 모델보다 뛰어난 성능을 보이는 것도 이런 이유 때문이라고 설명했다.
가브리엘 고 오픈AI 연구원도 '달리 3'가 '달리 2'보다 뛰어난 성능을 발휘하는 것을 학습에 사용한 데이터의 주석 품질이 뛰어나기 때문이라고 밝혔다. "텍스트 주석은 달리 2보다 비교할 수 없을 정도로 좋다"라며 “이것이 성능 개선의 주요 원인이라고 생각한다”라고 말했다.
따라서 전문가들은 대규모 고품질 교육 데이터셋에 대한 비중이 커지며, 이런 데이터를 구입할 수십억달러의 예산을 가진 소수의 플레이어에게 AI 개발이 집중될 것이라고 우려한다.
물론 기존 대형언어모델(LLM)의 한계를 넘기 위해 트랜스포머 아키텍처를 혁신하고 합성 데이터를 도입하는 추세이지만, 당장 적용할 수준이 아니라는 것이 문제다.
로 선임과학자는 "일반적으로 유용한 콘텐츠 계약이 이뤄지면, 계약자는 해당 자료를 잠그는 것이 일반적"이라고 지적했다. 예를 들어 오픈AI는 이전부터 AI 학습에 따른 데이터의 공정 사용을 주장해 왔지만, 대형 언론사들과 계약을 마친 현재 이에 대한 외부 접근을 허용할 이유가 없다는 것이다.
즉 알려진 대로 주요 AI 업체들은 법적으로 문제가 될 것을 알면서도 일단 인터넷에서 무단으로 데이터를 가져다 사용해 놓고, 이후 자금력을 바탕으로 계약을 추진해 데이터에 자물쇠를 채운다는 지적이다. 물론 언론사들이나 출판사와 독점 계약을 한 것은 아니지만, 계약과 동시에 비계약자들의 사용을 막는 자물쇠가 자동으로 채워지는 것은 뻔한 일이다.
비용도 오르고 있다. 오픈AI는 모델을 교육하기 위해 뉴스 및 출판사, 스톡 미디어 라이브러리, 커뮤니티 등의 콘텐츠 라이선스에 이미 수억달러를 지출했다. 이는 대부분의 학술 연구 그룹, 비영리 단체 및 스타트업의 예산을 훨씬 초과하는 규모다.
AI 교육 데이터 시장은 현재 약 25억달러(약 3조4000억원)에서 10년 내에 300억달러(약 41조4000억원)까지 성장할 것으로 예상되는 상황이다. 계약 최고 액수도 잇달아 갱신될 조짐이다. 레딧 같은 커뮤니티도 이 분야 본격 판매 사업에 나섰다.
이 문제는 미국 정부의 주목도 받고 있다.
미국 법무부는 31일 오픈AI와 같은 회사가 콘텐츠 제작자와 체결한 거래를 면밀히 모니터링하고 있다고 블룸버그와의 인터뷰에서 밝혔다.
조나단 캔터 독점 금지법 담당 최고 책임자는 “기업이 상대방이 독점권을 행사하는 거래를 체결했다고 해서, 그것이 법에 따라 모두 허용된다는 의미는 아니다"라고 말했다.
미국 법무부는 AI 기업의 건전한 경쟁에 초점을 맞추고 있으며 구매자가 소수인 경우, 즉 수요독점을 더 경계하고 있다. 이를 통해 구매자의 시장 지배력이 급격하게 커지는 것을 방지한다는 방침이다.
법적 제제 이외에도 현재 일부 비영리단체 및 오픈 소스 커뮤니티는 무료 데이터셋을 구축으로 돌파구를 찾고 있다. 하지만 쉽지는 않다는 것이 문제다.
대표적인 것이 비영리단체 레이온(LAION)인데, 이들의 대표적인 데이터셋 '더 파일 v2'에는 이미 저작권 침해 사례가 다수 발견됐으며 이미지 데이터셋에는 아동 학대 이미지 등이 포함된 것으로 알려지며 문제가 됐다.
이런 상황에서 오픈 소스 데이터셋이 빅테크와 보조를 맞출 수 있을 것이라고 생각하는 사람은 많지 않다는 지적이다.
로 선임과학자는 "소규모 플레이어는 이런 데이터 라이선스를 감당할 수 없으므로 결국 AI 모델을 개발하거나 연구할 수 없게 된다"라며 "결국 AI 개발은 소수만이 가능해질 것이라는 우려가 있다”라고 말했다.
임대준 기자 ydj@aitimes.com
