LG AI연구원이 인공지능(AI) 학습에 사용하는 데이터셋의 저작권 문제를 파악할 수 있는 도구를 공개했다. 이 도구로 현재 활용 중인 데이테셋을 검사한 결과, 21%만이 상업적 활용이 가능하다는 결과도 얻었다.
LG AI연구원(원장 배경훈)은 17일 홈페이지를 통해 AI 모델에 사용된 학습 데이터셋의 라이프 사이클을 추적해 분석하고, 데이터셋을 활용해 위험 요소를 평가하는 AI 에이전트 시스템을 연구한 결과를 발표했다. 또, AI 에이전트가 분석한 결과를 직접 처리할 수 있는 '넥서스(NEXUS)'라는 도구도 공개했다.
연구원은 AI 기술 발전에 따라 무분별하게 학습 데이터를 활용, 신뢰도를 떨어뜨리거나 비윤리적이거나 타인의 권리를 침해하는 문제가 발생했다고 지적했다.
하지만, 주요 AI 학습 데이터셋은 수만개의 개별 데이터 소스와 연결, 이를 개발자들이 직접 찾아내는 것은 매우 어렵다고 설명했다. 또 개별 소스가 유동적으로 변하기 때문에 데이터셋의 문제를 파악하기 위해서는 라이프 사이클 전반을 추적해야 한다고 전했다.
이런 문제를 해결하기 위해 이번 연구를 진행, 데이터셋 분석 기술을 개발했다. 이를 직접 구현하는 도구가 넥서스다.
주요 기술 중 하나는 데이터셋의 복잡한 부분까지 찾아 자동으로 분석할 수 있다는 점이다. 각 단계에서 발생할 수 있는 충돌, 권리관계, 개인정보 포함 여부 등을 자동으로 감지하고, 서비스 평가 결과를 제공한다.
또 데이터셋을 단일 정보의 집합이 아닌, 데이터셋과 개별 정보가 트리 구조로 종속된 형태로 인식한다. 따라서 개별 정보에 대한 이해를 바탕으로 전체 데이터셋에 미칠 수 있는 영향까지 파악한다.
넥서스에 적용한 AI 에이전트 기술은 대표 모델인 '엑사원 3.5'를 기반으로 했다. 구체적으로는 ▲데이터셋과 연결된 웹 문서 등을 검색하는 '내비게이션(Navigation)' ▲문서를 분석하고 관련 정보를 추출하는 'QA(Question-Answer)' ▲데이터의 안전성을 판단하는 '평가 (Scoring)' 등 세가지 모델을 조합한 결과다.
이런 기술로 인해 인간 전문가 대비 45배 이상 빠른 속도로 작업을 처리, 비용은 700분의 1로 매우 저렴하다고 밝혔다.
정확도도 매우 높은 것으로 알려졌다. 허깅페이스에서 1000번 이상 다운로드된 데이터셋 중 216개를 평가한 결과, 종속성 식별은 81%, 라이선스 식별은 95.8%의 정확도를 기록했다. 이른 다른 대형언어모델(LLM)을 뛰어넘는 수치다.
이에 따라 산업 현장이나 연구 기관 등 데이터셋의 합법성 검토가 필요한 다양한 분야에서 빠르게 활용할 수 있다는 설명이다.
실제 합법성 평가는 권한 부여 여부와 데이터 수정 권한, 개인정보 보호 관련 등 18개의 주요 항목을 체크한다. 이에 따라 각 항목을 가장 안전한 등급부터 문제가 큰 등급까지 7단계로 구분한다.
그리고 이 기술로 3612개의 주요 데이터셋을 조사한 결과, 광범위한 문제가 있다는 것을 발견했다. 이 중에는 현재 널리 사용되는 데이터셋이 대부분이다.
더욱 중요한 것은 데이터셋의 상호 연결로 인해 상업적으로 이용 가능한 것으로 판단된 2852개의 데이터셋 중 실제 상업적으로 이용 가능한 것은 605개(21.21%)에 불과했다는 것을 밝혔다는 점이다.
LG AI 연구원은 현재 파악한 3612개의 데이터셋을 넘어 범위를 넓히는 것이 목표라고 전했다. 단순히 양적으로만 확장하는 것이 아니라, 상관관계 파악을 통해 질적으로 확대하는 것이다.
또 이번 연구를 글로벌 AI 커뮤니티 및 전문가와 협력해 국제 표준으로 발전시킬 계획이라고 전했다. 이를 통해 AI 데이터셋의 신뢰성을 확인하고, 개발자가 프로젝트에 맞춰 데이터셋을 쉽게 탐색할 수 있게 하겠다는 것이다.
한편, 유럽연합(EU)의 AI 규제법에서 데이터 출처 공개 및 저작권 문제가 가장 첨예한 문제로 떠오른 상태에서, 이번 연구가 실질적인 해결책 중 하나가 될 수 있을지 주목된다.
대부분 AI 기업은 자신들이 활용한 데이터셋에 어떤 내용이 포함됐는지를 파악하는 자체가 어렵다고 호소하기 때문이다.
임대준 기자 ydj@aitimes.com
