AI 데이터 품질을 정의...'다양성ㆍ정확성ㆍ유효성' 확보해야
향후 'AI 국제표준화회의'에 제안...국제표준화 추진해

(사진=셔터스톡)
(사진=셔터스톡)

정부가 자율주행차와 의료 등 여러 분야에 공통 적용할 수 있도록 인공지능(AI) 데이터 정의품질규격 등 내용을 담은 범용 표준 형태의 'AI 데이터 표준안'을 제작했다. 국내 단체 표준 등록을 목표로 담당 표준화 기구에 이번 표준안을 공식 제안할 방침이다.

과학기술정보통신부(장관 최기영)는 AI 데이터의 기준 확보를 목표로 관련 품질 개념범위세부사항 등을 정립한 표준안을 개발, 국내 단체 표준 등록에 나선다고 5일 밝혔다.

AI 데이터는 적정 절차요구사항규격 등에 따라 품질이 달라지며, 이 같은 데이터 품질은 AI 기술서비스 성능을 좌우한다.

과기정통부는 현재 국내외 AI 데이터 품질 수준이 비교적 낮은 상황이라고 분석했다.

마이크로소프트(MS)의 'MS COCO'와 구글의 'Google Open Images' 등 해외 기업 개방 데이터셋의 경우에도 데이터 정확도가 43~83% 수준에 불과하다는 설명이다.

과기정통부는 세계적으로 AI 데이터 품질의 체계적인 방법론을 정립하지 못한 것을 낮은 데이터 품질의 주요 원인으로 꼽았다.

지난 4월 우리나라가 'AI 국제표준화회의(ISO/IEC JTC1/SC42)'에 제안한 AI 데이터 품질 관련 프로젝트를 신규 과제로 채택하는 것을 비롯해 국제 사회에서 AI 학습 데이터 표준화 진행 상황은 초기 단계다.

이에 과기정통부는 2019년 발표한 'AI 학습용 데이터 구축 및 품질관리 공통 기준'을 바탕으로 해외사례 분석, AI품질관리 전문가 자문 등을 거쳐 공통 기준 내용을 보완구체화 해 표준안을 개발했다.

◆ AI 데이터 품질, '다양성정확성ㆍ유효성 확보해 유용한 가치를 줄 수 있는 수준'

이번 표준안에서 AI 데이터 품질을 'AI 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준'으로 정의했다.

과기정통부는 이번 표준안을 자연어처리(NLP), 자율주행차, 의료, 등 다양한 분야에서 공통 적용할 수 있는 범용 표준 형태로 제작했다.

체계적인 데이터 품질 확보, 상호호환성 제고 등을 위해 데이터 수집정제가공품질검증활용 단계별 표준 절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격도 정했다.

구체적으로 ▲원시 데이터 수집 단계의 다양성 ▲사실성 등의 품질 요구사항과 파일 포맷 ▲해상도 등 기술 적합성 요구사항 ▲정제 단계의 데이터 중복 방지 및 비식별화 조치 요구사항 ▲가공 단계의 객체 분류체계 및 라벨링 규격 요구사항 ▲품질검수활용 단계의 유효성 검수 요구 사항방법 등을 담았다.

과기정통부는 이번에 개발한 표준안을 한국정보통신기술협회(TTA회장 최영래) 단체 표준으로 만들 수 있도록 6일 TTA 내 단체 표준화 기구 ‘TTA PG 1005(AI 기반기술)’에 공식 제안할 예정이다.

이후 국립전파연구원(원장 김정렬)을 통해 이번 표준화 내용을 AI 국제표준화회의에 제안, 국제표준화도 추진할 계획이라고 덧붙였다.

최동원 빅데이터진흥과 사무관은 "국내 단체 표준을 위한 절차가 있기 때문에 내년 6월에 최종 채택 여부를 확인할 수 있을 것이다"라고 전망했다.

과기정통부는 이번에 개발한 표준안이 AI 데이터 품질을 향상시키고, AI 기술서비스 성능을 높이는 데 기여할 것으로 기대했다.

 

[관련 기사] 韓, 세계 혁신 지수 10위 기록…세계 100대 과학 클러스터에 서울 3위

[관련 기사] [기자수첩]데이터 표준화가 시급하다

키워드 관련기사
  • 韓, AI 데이터·서비스 위한 국제 표준 제안