과기정통부, AI 학습용 데이터 구축사업 주요 과제 확정

'데이터 댐' 구상도(추경 정부안 기준)

정부가 '데이터 댐' 구축에 필요한 AI 학습 데이터를 수집한다.

과학기술정보통신부(장관 최기영)는 22일 인공지능(AI) 개발에 필수적인 학습 데이터를 대규모로 구축 및 개방하는 'AI 학습용 데이터 구축 사업' 20개 과제를 확정했다고 밝혔다.

2017년부터 시작한 AI 학습용 데이터 구축 사업은 텍스트와 이미지 등 다양한 분야 AI 서비스 개발을 위한 데이터를 구축하는 사업이다. 현재 기계학습용 데이터 21종, 총 4650만 건을 구축했으며 AI 통합 지원 플랫폼 'AI 허브'를 통해 공개하고 있다.

이번 사업은 지정ㆍ자유 공모 형식으로 각각 10개 과제 총 20개 과제를 390억 원 규모로 추진한다. 과기정통부는 '국가적ㆍ산업적 필요성'과 '국민 편의 향상'에 초점을 맞춰 다양한 분야 사업을 선정했다.

'2020년 AI 학습용 데이터 구축 과제' 선정 결과

'국가적ㆍ산업적 필요성' 측면은 활용 가치가 높고 데이터 확보 필요성이 시급한 과제를 우선 지정했다. ▲인간 감성과 문맥을 이해할 수 있는 자연어 처리(NLP)분야 ▲자동차ㆍ드론 등 자율주행기술 분야 ▲음성ㆍ시각ㆍ언어 융합 분야 등 관련 데이터를 구축한다.

'국민 편의 향상' 측면에서는 질병진단ㆍ운동 등 헬스케어 분야 ▲안면을 악의적으로 변조한 딥페이크 방지 기술 분야 ▲장애인 삶을 향상 시킬 수 있는 분야 등을 추진한다. 국민 생활의 질을 높이고 사회적 문제를 해결할 수 있는 과제를 중점적으로 고려했다.

'크라우드 소싱' 방식을 활용해 일자리 창출도 도모한다. 크라우드 소싱은 장소에 구애 받지 않고 누구나 데이터 수집 및 가공에 참여할 수 있는 방식이다.

AI 학습용 데이터를 수집하고 가공하는데 많은 인력이 필요하다. 이에 미국과 중국 등은 크라우드소싱 방식을 경쟁적으로 도입, 인력 부족 문제를 해결하고 양질의 데이터를 확보하고 있다.

AI 학습용 데이터 구축ㆍ개방 현황(2017~2019)

과기정통부는 이번 사업으로 진행하는 모든 과제에 크라우드 소싱 방식을 적용해 AI 학습용 데이터를 구축하고 관련 분야 일자리를 만들어갈 예정이다. 이어 청년과 취업 준비생, 경력단절여성, 장애인 등에게 비교적 많은 일자리를 제공함으로써 이번 사업이 데이터 가공 전문성을 쌓는 데 기회가 될 것이라고 기대했다.

과기정통부는 추경 예산을 활용해 AI 학습용 데이터를 추가 구축할 방침이다. 정부안 2925억원을 투입, 총 150개 종류 AI 학습용 데이터를 구축하고 AI 통합 지원 플랫폼인 'AI 허브'를 통해 무료 개방할 계획이다.

과기정통부는 중소기업과 스타트업 등이 비용 부담과 인력 부족 때문에 필요한 AI 학습용 데이터를 구축하는 데 어려움 많다고 설명하며, 양질의 AI 학습용 데이터를 많이 확보하는 것이 AI 경쟁력을 끌어 올릴 수 있는 해결책이라고 강조했다.

과기정통부는 이번 추경으로 AI 학습용 데이터 구축을 대규모 확대 및 구축해 '데이터 댐'에 모으고, 다양한 AI 기술 연구과 상용화 서비스 개발에 활용할 수 있도록 지원할 방침이다.

 

[관련 기사] 포스트코로나 시대, 과학기술 변화를 조망한다

[관련 기사] 과기정통부, 의료ㆍ금융 등 6개 분야 '마이데이터' 실증 추진

키워드 관련기사
  • KAIST, 세계 최고 성능 DB관리시스템 기술 개발
  • 디지털서비스 계약 유연해진다
  • '모바일 신분증' 내년부터 사용 가능