(사진=셔터스톡)
(사진=셔터스톡)

과학기술정보통신부(장관 이종호)는 5월19일까지 '인공지능 학습용데이터 구축사업' 참여사업자를 공모한다고 14일 밝혔다.

이번 사업에는 총 2805억원의 예산을 투입해 150종의 신규 데이터를 구축한다. 

우선 지난해 수요조사를 통해 접수한 1400여건의 후보데이터를 토대로 기획된 130종의 데이터는 지정과제 형태로 추진한다. 지정 과제는 14대 분야 118종의 데이터와 2022년 계속과제 12종이다. 나머지 20종은 자유과제로 지역특화, 자유주제 등 일반 영역과 초거대 AI 영역으로 나눠 선정할 예정이다.

특히 올해는 초거대 AI에 기반한 대화형 모델 지원을 위한 데이터 구축도 추진한다. 기존의 지도학습용 데이터(라벨링데이터) 물량은 일부 축소하고, 한국어 21종 등을 포함한 총 34종의 데이터를 ‘초거대AI 지원 데이터’로 구분해 자기지도학습에 필요한 비라벨링 데이터 구축을 확대한다. 

또 이미지 데이터 48종은 생성 AI 등의 학습에도 활용할 수 있도록 이미지를 묘사‧설명하는 캡션 정보를 추가로 포함한다. 2024년부터는 사업개편을 통해 초거대AI 데이터 구축을 별도 트랙으로 신설하여 본격 지원할 예정이다.

그간 적용해 온 수행기관의 인건비 편성요건을 폐지하고 자동라벨링과 합성데이터 등 신기술 적용을 확대한다. 문화관광, 스포츠, 법률 등 산업특화 분야에서의 AI 도입을 유도하기 위하여 관련 데이터 구축 비중을 지난해 19%에서 올해 25%로 높인다. 국회·소방 등 공공분야에서 보유한 데이터의 민간이용 확산을 지원하기 위한 공공분야 학습데이터 구축(5종)도 구축을 강화한다.

AI 학습데이터를 활용하는 전문기업과 데이터 수집‧보유‧가공 등의 구축 역량을 갖춘 2개 이상의 기업‧기관 등이 컨소시엄을 구성해 참여할 수 있다. 총 114개의 신규 주관기관을 선정할 예정이며, 선정 기관에는 데이터 종당 구축비용으로 1년간 13.5억~17억원이 지원된다. 상세한 내용은 AI허브, 과기정통부와 한국지능정보사회진흥원 누리집을 통해 확인할 수 있다.

박윤규 제2차관은 “방대한 양의 데이터를 배워 사람처럼 추론하는 초거대 AI 등 새로운 AI 기술이 등장하면서 양질의 대규모 데이터 확보는 어느 때보다 중요해지고 있다”라며 “혁신적인 아이디어를 가진 많은 기업이 AI 도입‧개발에 적극적으로 도전할 수 있도록 고품질의 데이터 인프라를 조성함으로써, 우리 국민이 생활 속 구석구석에서 더욱 다양한 인공지능 혜택을 누릴 수 있는 기반을 다져 나가겠다”고 말했다.

이주영 기자 juyoung09@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지