170종 4억8000만건 AI 학습용 데이터 6월 AI 허브에 오픈
한국어 자연어·헬스케어·자율주행 등 8개 분야 포함
서울대·KAIST·서울대병원·서울아산병원 등 674개 기업·기관 참여

발표 중인 임혜숙 과기정통부 장관(사진=과기정통부)
발표 중인 임혜숙 과기정통부 장관(사진=과기정통부)

인공지능(AI) 개발에 필수적인 데이터가 정부 주도로 대거 개방된다. 비용과 인력 문제로 데이터 구축이 어려운 AI 스타트업에 특히 반가운 소식이다.

과기정통부와 NIA는 6월 내 170종 AI 학습용 데이터 4억8000만건을 AI 허브를 통해 공개한다고 18일 밝혔다. 금일 60종 데이터 개방을 완료했으며 나머지는 6월 말까지 순차적으로 공개한다.

데이터 분야는 8개로 ▲한국어 음성·자연어(39종) ▲헬스케어(32종) ▲자율주행(21종) ▲국토환경(12종) ▲농축수산(14종) ▲안전(19종) ▲AR/VR, 교육 등 기타(18종)다.

이 중 헬스케어 데이터 27종과 개인정보·민감정보 포함 우려가 있는 59종 데이터는 최종검증을 거쳐 가장 늦은 30일 공개한다.

(그림=과기정통부)
(그림=과기정통부)

과기정통부는 2017년부터 AI 학습용 데이터를 구축·개방하고 있다. 2017년부터 2019년에는 21종 데이터를 공개했다. 2020년부터는 데이터 댐 구축 프로젝트 일환으로 규모를 대폭 확대해 추진 중이다.

이번에 공개하는 데이터 구축에는 작년 총 674개 기업·기관이 참여했다. 주요 AI·데이터 전문기업은 물론 서울대와 카이스트를 포함한 48개 대학, 서울대병원과 서울아산병원을 비롯한 25개 병원이 포함된다.

데이터 수집·가공에는 약 4만명 국민이 참여했다. 크라우드소싱 방식을 도입해 경력단절여성, 취업준비청년 등 누구나 쉽게 참여할 수 있게 했다.

데이터 품질과 활용성 검증을 위해 산·학·연 전문가 80여명이 참여하는 `품질자문위`를 운영하기도 했다. 한국정보통신기술협회(TTA)와 관련 전문기업들과 협력해 데이터 품질관리 수준을 대폭 강화했다.

데이터 활용을 촉진하기 위해 향후 과기정통부는 `AI 데이터 활용협의회`를 구축할 계획이다. 협의회는 데이터 활용성 검증에 참여한 TTA와 기존 참여기업들로 구성된다. 향후 개인정보보보호위원회, 한국인터넷진흥원(KISA)과도 협업해 해당 업무를 수행할 계획이다.

금일부터 9월말까지 3개월 간 진행하는 참여형 데이터 집중 개선기간에는 이용자 피드백을 듣는다. AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영한다. TTA, KISA 등과 협력해 데이터 품질에 대한 이용자 의견에 신속하게 대응할 수 있는 TF를 만든다.

과기정통부 임혜숙 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용되어 혁신의 열매를 맺을 수 있기를 기대한다”고 전했다.

 

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]정부, 2025년까지 15개 분야 대표 '빅데이터 플랫폼' 구축

[관련기사]과기정통부, '데이터 바우처' 최종 선정 결과 발표...2580개 기업에 총 1230억원 지원

키워드 관련기사
  • 개인정보위, AI 관련 자율점검표 발표…개인정보보호 기준 정해
  • 과기정통부, '신뢰할 수 있는 AI' 실현 전략 발표...2025년까지 단계적 추진
  • 과기정통부, '지능형 정부 구현'으로 3월 디지털 뉴딜 우수사례 선정