AI 데이터 품질을 정의...'다양성ㆍ정확성ㆍ유효성' 확보해야
향후 'AI 국제표준화회의'에 제안...국제표준화 추진해
정부가 자율주행차와 의료 등 여러 분야에 공통 적용할 수 있도록 인공지능(AI) 데이터 정의ㆍ품질규격 등 내용을 담은 범용 표준 형태의 'AI 데이터 표준안'을 제작했다. 국내 단체 표준 등록을 목표로 담당 표준화 기구에 이번 표준안을 공식 제안할 방침이다.
과학기술정보통신부(장관 최기영)는 AI 데이터의 기준 확보를 목표로 관련 품질 개념ㆍ범위ㆍ세부사항 등을 정립한 표준안을 개발, 국내 단체 표준 등록에 나선다고 5일 밝혔다.
AI 데이터는 적정 절차ㆍ요구사항ㆍ규격 등에 따라 품질이 달라지며, 이 같은 데이터 품질은 AI 기술ㆍ서비스 성능을 좌우한다.
과기정통부는 현재 국내ㆍ외 AI 데이터 품질 수준이 비교적 낮은 상황이라고 분석했다.
마이크로소프트(MS)의 'MS COCO'와 구글의 'Google Open Images' 등 해외 기업 개방 데이터셋의 경우에도 데이터 정확도가 43~83% 수준에 불과하다는 설명이다.
과기정통부는 세계적으로 AI 데이터 품질의 체계적인 방법론을 정립하지 못한 것을 낮은 데이터 품질의 주요 원인으로 꼽았다.
지난 4월 우리나라가 'AI 국제표준화회의(ISO/IEC JTC1/SC42)'에 제안한 AI 데이터 품질 관련 프로젝트를 신규 과제로 채택하는 것을 비롯해 국제 사회에서 AI 학습 데이터 표준화 진행 상황은 초기 단계다.
이에 과기정통부는 2019년 발표한 'AI 학습용 데이터 구축 및 품질관리 공통 기준'을 바탕으로 해외사례 분석, AIㆍ품질관리 전문가 자문 등을 거쳐 공통 기준 내용을 보완ㆍ구체화 해 표준안을 개발했다.
◆ AI 데이터 품질, '다양성ㆍ정확성ㆍ유효성 확보해 유용한 가치를 줄 수 있는 수준'
이번 표준안에서 AI 데이터 품질을 'AI 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준'으로 정의했다.
과기정통부는 이번 표준안을 자연어처리(NLP), 자율주행차, 의료, 등 다양한 분야에서 공통 적용할 수 있는 범용 표준 형태로 제작했다.
체계적인 데이터 품질 확보, 상호호환성 제고 등을 위해 데이터 수집ㆍ정제ㆍ가공ㆍ품질검증ㆍ활용 단계별 표준 절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격도 정했다.
구체적으로 ▲원시 데이터 수집 단계의 다양성 ▲사실성 등의 품질 요구사항과 파일 포맷 ▲해상도 등 기술 적합성 요구사항 ▲정제 단계의 데이터 중복 방지 및 비식별화 조치 요구사항 ▲가공 단계의 객체 분류체계 및 라벨링 규격 요구사항 ▲품질검수ㆍ활용 단계의 유효성 검수 요구 사항ㆍ방법 등을 담았다.
과기정통부는 이번에 개발한 표준안을 한국정보통신기술협회(TTAㆍ회장 최영래) 단체 표준으로 만들 수 있도록 6일 TTA 내 단체 표준화 기구 ‘TTA PG 1005(AI 기반기술)’에 공식 제안할 예정이다.
이후 국립전파연구원(원장 김정렬)을 통해 이번 표준화 내용을 AI 국제표준화회의에 제안, 국제표준화도 추진할 계획이라고 덧붙였다.
최동원 빅데이터진흥과 사무관은 "국내 단체 표준을 위한 절차가 있기 때문에 내년 6월에 최종 채택 여부를 확인할 수 있을 것이다"라고 전망했다.
과기정통부는 이번에 개발한 표준안이 AI 데이터 품질을 향상시키고, AI 기술ㆍ서비스 성능을 높이는 데 기여할 것으로 기대했다.
무단전재 및 재배포 금지
기사제보 및 보도자료 news@aitimes.com