[기자수첩]데이터 표준화가 시급하다

인공지능(AI) 시대로 접어들면서 '데이터 표준화' 문제가 시급한 과제로 떠올랐다. 엄청난 양의 데이터를 관리하고 활용하기 위해서는 정제된 기준이 필요하다.

AI는 다양한 자료를 바탕으로 학습한 뒤 특정 패턴을 파악하고, 이를 적용해 효율적으로 연산한다. 데이터 수가 많고, 종류가 다양할수록 AI의 학습 능력과 정확도가 높아지고 활용 폭도 넓어진다.

최근 들어 더 발전하고는 있지만 AI는 기본적으로 알고리즘이라는 공식을 토대로 연산하고 추론한다. 자동 계산 AI를 개발하려면 'A+B=C'라는 알고리즘을 적용한다. A, B, C에 숫자 데이터를 넣어야만 AI가 자동 계산에 최적화 한 학습을 할 수 있다.

하지만 숫자 데이터 기록법은 많다. 아라비아 숫자 표기도 있고 '일, 이, 삼'과 같이 글자로 표현하거나 '하나, 둘, 셋'처럼 개수를 의미하는 말로 나타낼 수 있다.

이같이 다양한 데이터 정제법을 하나로 통일하는 것이 데이터 표준화다. 업무 수행 시 필요한 모든 데이터에 작명 기준을 규정하고, 그 기준에 따라 표준 항목명을 부여하는 일이다.

데이터 표준화가 시급한 이유는 데이터 호환성에 있다. 공공ㆍ민간 기관별로 데이터 분류법이 달라 호환성이 떨어지면서 데이터 활용 범위가 좁아진다. 호환이 가능하도록 데이터 변환 작업을 해야 하지만 수작업으로 진행하기 때문에 시간적ㆍ경제적 비용이 많이 든다. 데이터 표준화를 이루면 불필요한 변환 작업을 최소화 할 수 있어 효율적 업무가 가능하다.

데이터 품질도 높일 수 있다. 2015년 국제표준화기구(ISO)는 데이터를 통합 관리하는 '데이터 거버넌스' 개념을 제시하며 데이터 관리에 있어 평가, 감독, 모니터링 체계를 확보해야 한다고 강조했다.

다양한 곳에 산재한 데이터를 전문 데이터 센터에서 수집ㆍ가공ㆍ정제할 경우 데이터 품질을 객관적으로 분석할 수 있고 신뢰성을 높여 양질의 정보를 제공할 수 있다.

데이터를 한 곳에 집중시켜 수요자의 혼란을 막고 데이터 호환성을 확보할 수 있도록 데이터 표준화를 시작해야 한다.

물론 선결해야 할 과제도 있다. 표준화를 하더라도 개인정보 유출은 막아야 한다. 기술계는 데이터 공유를 활성화하기 위해 정보의 주체를 알 수 없도록 한 ‘비식별 데이터’를 대안으로 내세웠다. 그러나 일부 전문가는 근본적인 대책이 될 수 없다고 주장한다.

이브 알렉산드르 드 몽 조예 임페리얼 칼리지 런던 컴퓨터 프라이버시 담당 조교수는 "인터넷 발전에 따라 개인의 건강, 금융 등 부가적 정보를 수집할 수 있게 됐다"며 "비식별화 정보로 정보 주체의 이름을 알 수 없지만 그의 생일, 자녀 수, 우편 번호 등은 쉽게 추론할 수 있을 것이다"라고 지적했다.

데이터의 재화적 가치를 인정하는 사회 분위기도 필요하다. 데이터는 활용 범위가 넓어 기업의 자산 성격을 띄고 있다. 이에 일부 기업ㆍ기관이 데이터 개방에 소극적이다.

의료 업계 관계자에 따르면, "국내 의료 데이터는 상당히 우수한 편"이라면서도 "국가ㆍ기관별 의료 기술 편차가 커 의료 데이터 표준화가 현실적으로 어려운 실정"이라고 토로했다.

국내 정부는 '업종별 공통 문제 해결형 산업 데이터 플랫폼 구축' 사업에 데이터의 재화적 가치를 감안했다. 업종별 일부 폐쇄적 연합체간 우선 공유를 통해 산업 데이터의 단계적 개방을 추진하고 있다는 점이 괄목할 만 하다.

다가오는 AI 시대에는 치열한 경쟁만이 유일한 생존법은 아니다.

[관련 기사] [기자수첩]인공지능 시대, 개발만이 능사는 아니다

[관련 기사] [AI논단] 인공지능과 디지털 전환