오픈AI가 인터넷 정보 이용과 관련해 저작권 및 개인 정보 침해 등으로 소송을 당했다.
인터넷에 공개된 데이터를 이용해 생성 인공지능(AI)을 훈련하는 것에 대한 합법 여부가 명확하지 않아 소송 결과가 향후 AI의 데이터 사용에 영향을 미칠 것으로 보인다.
28일(현지시간) 워싱턴포스트(WP)에 따르면 미국 로펌 클락슨은 오픈AI가 인터넷에서 모은 정보로 AI를 훈련하면서 저작권과 인터넷 이용자의 프라이버시를 침해했다며 소송을 제기했다.
로펌은 "인터넷에 수많은 글을 쓴 사람들은 오픈AI가 정보들을 사용하는 것에 동의하지 않았다"고 지적했다.
로펌의 파트너 변호사인 라이언 클락슨는 “모든 정보들이 대형언어모델LLM)에 의해 사용될 목적이 아니었음에도 불구하고 대규모로 수집되고 있다”며 “AI 모델이 훈련되고 데이터가 사용됨에 따라 사람들이 어떻게 보상을 받을 수 있는지에 대한 문제를 법원에서 판단받아야 할 필요가 있다”고 언급했다.
클락슨은 과거에도 데이터 침해, 허위 광고 등 다양한 문제에 대한 집단소송을 제기한 이력이 있다. 그는 "우리는 매우 강력한 기술을 만들기 위해 자신의 정보가 도용되고, 상업적으로 이용된 이들을 대표하겠다"며 "이미 원고가 있고, 소송을 본격 시작하면 더 많이 모집할 것"이라고 말했다.
WP는 이번 소송이 단순히 오픈AI 뿐이 아닌, 사회관계망서비스(SNS), 블로그 게시물, 위키피디아 등의 공개된 데이터를 사용하면서 인터넷 사용자의 권리 침해 여부를 판단하게 되는 새로운 법적 이론을 시험하는 것이라고 평가했다.
현재 공공 인터넷에서 얻은 데이터를 활용해 수익성이 높은 도구를 훈련하는 것의 합법성은 명확하지 않다. AI 개발자들은 공정 사용의 개념에 따라 인터넷에서 공개된 정보를 사용하는 것을 옳은 것으로 간주해야 한다고 주장하고 있다.
공정 사용이란 표현의 자유와 기술 발전 등 특정한 상황에 한해 저작권이 있는 작업물을 허가 없이 이용할 수 있는 것을 의미한다.
그러나, 공정 사용은 저작권법에서 자료가 완전히 새롭게 변경될 때에만 예외로 인정되는 개념이라고 WP는 설명했다.
한편 규제 당국도 AI에 입력된 데이터에 대해 기업의 투명성을 요구하는 새로운 법률 제정에 대해 논의하고 있다. 경우에 따라서는 법정 소송에서 판사가 오픈AI와 같은 기업이 어떤 데이터를 사용했는지에 대한 정보를 넘겨주도록 강제할 수도 있다.
박찬 기자 cpark@aitimes.com
