한옥을 지을 때 맨 먼저 하는 일은 주춧돌을 놓는 일이다. 주춧돌이 건재해야 다른 부분이 교체되더라도 오랫동안 보존될 수 있다. 인공지능 산업 또한 마찬가지다. 대량의 고품질 데이터를 잘 확보해야 인공지능 알고리즘의 성능을 높일 수 있고, 다양한 인공지능 서비스에 활용할 수 있다.
최근 우리나라 많은 기업들이 인공지능 서비스 개발에 노력하고 있으나 인공지능을 학습시키기 위한 데이터가 부족해 어려움을 겪고 있다. 반면 전세계 빅데이터 총량의 20%를 차지하고 있는 중국의 인공지능 산업은 연평균 35.7%로 급성장하고 있다. 중국은 안면인식 기술 개발에 14억명의 이지미 데이터를 활용하고 있다. 미국 OpenAI의 GPT3는 3천억개의 텍스트 데이터를 활용하여 개발되었다.
우리나라는 정부 차원에서 다량의 고품질 데이터를 구축하는 데 전력을 기울이고 있다. 디지털 뉴딜의 시그니처 사업으로 ‘인공지능 학습용 데이터 구축사업’이 추진 중이다. 그 결과 지난 한 해 자연어, 비전 등 최신 기술분야와 교통·물류, 농축수산 분야 등 170종의 데이터를 구축했다. 올해도 190종의 데이터를 추가로 구축할 예정이다. 이렇게 구축된 데이터는 ‘AI허브(aihub.or.kr)’에 순차적으로 개방해나갈 계획이다.
이용자가 학습용 데이터를 만나는 최초의 접점이 AI허브인 만큼, 데이터 활용도를 높이려면 AI허브의 성능과 UI 개선이 중요하다. 학습용 데이터 본격 개방에 따라 AI허브 이용자와 데이터 다운로드 량이 폭증할 것에 대비하여 시스템 성능 전반을 재정비할 예정이다. 검색 기능을 개선하여 데이터에 대한 접근성을 높이는 게 필요하다. 현재 사업명 또는 과제별로 되어있는 데이터셋을 자동차, 신호등, 표지판 등 사물·객체 중심의 데이터 분류체계로 전환할 예정이다. AI허브 이용환경을 공급자 중심에서 사용자 친화적 환경으로 전면 개편하여 기업 및 대학의 개발자, 연구자 등이 다양한 분야에서 인공지능 서비스를 개발할 수 있도록 할 것이다.
또 하나. 개인정보나 의료 이미지 등 민감정보가 포함되어 있어 완전 개방이 어려운 데이터에 대한 활용 대책이 필요하다. 이를 위해 신청부터 반출까지 전 과정을 처리할 수 있는 안심존을 구축할 예정이다. 보안망을 통한 가상공간이나 외부와 물리적으로 차단된 별도 공간을 마련하여 데이터를 활용할 수 있도록 할 예정이다.
데이터는 품질이 생명이다. 순도 높은 데이터를 구축하기 위해서는 데이터 품질 관리가 무엇보다 중요하다. 데이터별 품질평가 결과를 공개하는 ‘데이터 구축 실명제’를 도입하여 데이터 구축의 책임성을 높이겠다. 데이터 품질에 100%는 없다. 품질 오류가 발견될 때 신속한 대응체계를 마련하겠다.
데이터 사업은 구축으로 끝나는 게 아니고 활용이 중요하다. 인공지능 학습용 데이터에 누구나 쉽게 접근·활용할 수 있도록 지속적인 노력을 기울여야 한다. 다양한 데이터톤 대회 등을 통해 K-방역에 일조한 마스크앱과 같은 서비스 모델이 나올 수 있기를 기대한다. 양질의 인공지능 학습용 데이터는 틀림없이 대한민국이 인공지능 선도국가가 되는데 주춧돌이 될 것이다.
문용식 한국지능정보사회진흥원장 greenmun21@naver.com
