(사진=셀렉트스타)
(사진=셀렉트스타)

인공지능(AI) 데이터 전문 셀렉트스타(대표 김세엽)는 대형언어모델(LLM)의 개인정보보호 준수 여부를 평가할 수 있는 오픈 소스 데이터셋을 구축한다고 23일 밝혔다. 

이번 사업은 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 ‘2025년도 초거대 AI 확산 생태계 조성사업’의 하나로 진행된다.

셀렉트스타는 주관 기관으로 유럽연합(EU)의 일반개인정보보호법(GDPR)과 인공지능법(AI Act)을 기반으로 한 표준 데이터를 구축하고 품질 검증 총괄을 맡는다. 

이번 프로젝트에서는 EU의 주요 법령과 공공 보고서를 기반으로 방대한 분량의 데이터를 수집·정제하고, 개인정보 보호와 관련된 핵심 항목을 구체적으로 분류해 평가 기준을 마련한다. 또 실제 서비스 환경에서 활용할 수 있도록 질의응답데이터와 다국어 평가 자료를 제작해, AI가 개인정보 보호 규정을 제대로 이해하고 준수하는지를 검증할 수 있는 체계를 갖출 예정이다.

컨소시엄에는 플리토와 BHSN이 참여기관으로 합류했다. 플리토는 글로벌 AI 언어 데이터 전문 기업으로 다국어 데이터정제·검수, 번역 품질 관리, 용어사전 구축 등을 수행한다. 리걸 AI 전문기업 BHSN은 법률 및 규제 해석 전문성을 바탕으로 개인정보 보호 핵심 항목 정의, 시나리오 설계, 법적 리스크 검토를 수행하여 데이터셋이 실제 규제 환경에 맞도록지원한다.

김세엽 대표는 “이번 프로젝트는 국내 기업들이 글로벌 시장 진출에 도움을 줄 수 있는 발판이 될 것”이라며 “셀렉트스타가 자체 개발한 AI 신뢰성 검증 기술력을 바탕으로, LLM의 EU 규제 대응 수준을 정량적으로 측정할 수 있는 체계를 마련하겠다”라고 밝혔다.

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지