한국지능정보사회진흥원(NIA, 원장 황종성)과 한국정보통신기술협회(TTA, 회장 손승현)는 인공지능(AI) 학습용 데이터 제공 플랫폼 'AI허브'를 통해 대형언어모델(LLM) 학습용 데이터 내의 '유해 표현 검출 인공지능 모델 및 유해 표현 학습용 데이터'를 공개했다고 14일 발표했다.
이번에 공개한 모델과 데이터는 초거대AI 확산 생태계 조성 사업의 일환으로 LLM 데이터의 품질검증 과정에서 '유해성'을 측정하기 위해 개발됐다. 자체 성능 검증 결과 80~90%의 정확도를 달성, 유해 표현 검출의 효용성을 입증했다고 설명했다.
데이터는 한국어 유해표현 오픈 소스 데이터를 토대로 ▲유해 표현 검출용 데이터 20만건과 ▲유해 표현 카테고리 구분용 데이터 21만건으로 구성됐다.
또 국가인권위원회의 혐오 표현에 대한 안내서 등과 같은 가이드라인을 참조, 유해 표현·카테고리를 정의하고 이를 재가공해 데이터의 일관성과 신뢰성을 확보했다고 전했다.
황종성 원장은 "이번 인공지능 모델 및 데이터의 공개가 한국어 LLM의 신뢰성 및 안전성을 강화하기 위한 계기가 될 것으로 기대한다"라며 "NIA는 앞으로도 윤리적 책임을 고려한 양질의 인공지능 데이터 구축 및 활용 기반 마련을 통해 국내 인공지능 생태계 지원을 확대해 나갈 것"이라고 말했다.
박수빈 기자 sbin08@aitimes.com
관련기사
