한국 코로나19 데이터세트 구축...캐글에서 금메달, 뉴립스2020 워크숍에 발표
서울대, 한양대, 경희대, 카네기멜론대, 텍사스대 학생 5명 모인 DS4C
옥스포드대, 하버드대 비롯 연구기관서 11개 논문에 인용

(사진=셔터스톡)
(사진=셔터스톡)

한국과 미국에서 데이터를 공부하는 학생들이 코로나19 연구를 위해 뭉쳤다. 서울대, 한양대, 경희대, 카네기멜론대, 텍사스대에서 데이터과학을 전공하는 한국인 학생 5명이 만든 비영리 연구팀 DS4C의 이야기다.

DS4C는 국내 코로나19 정보를 대량 수집해 연구에 활용할 수 있는 데이터세트를 만들었다. 확진자 동선, 확진까지 걸린 시간, 감염원 등 세계에서 가장 자세하게 코로나19 정보를 공개하는 우리나라 인프라를 효과적으로 활용했다. 정부의 사회적 거리 정책과 마스크 분배 정책, 의료 접근성에 따라 변하는 코로나19 감염 상황도 분석했다.

DS4C이 구축한 코로나19 데이터세트는 1년이 채 되지 않는 시간 동안 옥스포드대, 하버드대를 비롯한 핵심 연구기관의 11개 논문에 사용되면서 유용함을 입증했다. 세계적인 데이터사이언스 대회인 캐글에서 금메달을 받으며 코로나 데이터세트 랭킹 3위에 올랐다. 지난해 12월 열린 세계적인 AI 학회 뉴립스(NeurIPS) 워크숍에 소개되기도 했다. 학부부터 석박사 과정 학생들로 이뤄진 연구팀으로서는 이례적인 성과다.
 

Q. 국내외 각기 다른 학교 학생 5명이 모였다. DS4C 팀을 소개하자면?

DS4C는 김지미 텍사스대 박사과정, 장서진 경희대 학부과정, 이원철 한양대 석사과정, 이중건 카네기멜론대 학부과정, 장동환 서울대 석사과정 학생이 모여 만든 비영리 프로젝트 연구팀이다. 코로나19를 비롯해 전염병 확산을 막는데 조금이라도 기여를 하는 것이 목표다.

올해 2월 김지후 한양대 연구원과 이중건 카네기멜론대 연구원이 같은 뜻을 가진 지인들과 처음 팀을 만들었다. 이후 여름쯤 이중건 연구원이 직접 제작한 코로나19 데이터셋 활용 연구를 제안했고 4명 연구원이 관심을 보여 참여하게 됐다.

DS4C 소속 학생 연구원들. 왼쪽부터 김지미, 이중건, 장동환, 장서진 학생.
DS4C 소속 학생 연구원들. 왼쪽부터 김지미, 이중건, 장동환, 장서진 학생.


Q. 구성원 각자의 역할이 궁금하다.

평소 김지미 연구원은 정책 효과를 통계적으로 보는 것에, 장서진 연구원은 사람의 행위를 이해하고 풀어내는 데 관심이 많다. 이원철 연구원은 이전에 ‘중심-주변 구조 탐지 기법을 이용한 MERS 대응 네트워크 분석’ 연구를 진행하면서 감염병 전파에 관한 데이터 과학적 분석 기법에 관심이 많아졌다. 장동환 연구원은 DS4C 데이터세트의 논문화 작업 팀장이다.

최종적으로 맡은 역할은 이렇다.

-김지미 학생 : 다변수간의 인과구조 설계 방법론 및 예측 모델 이론적 배경 제공, 전반적인 인과적 영향 연구 설계

-장서진 학생 : ‘사망 여부’와 ‘확진 받기까지의 기간’의 인과적 영향 연구 설계 및 분석

-이원철 학생 : 대한민국 정책들과 감염 속도 비율의 인과적 영향 연구 설계, 결론 분석

-이중건 학생 : DS4C 데이터세트의 배경, 연구적 가치, 제작 과정의 분석과 설명

-장동환 학생 : DS4C 데이터세트 제작방법 논문 작성, 다변수간의 인과구조 설계 방법론과 예측 모델에 대한 이론적 배경 제공, 실험 결과 분석과 결론 도출
 

Q. DS4C 의 코로나19 데이터세트에 대해 간단히 설명하자면?

우리나라는 전세계 어느 국가와도 비교할 수 없을 정도로 상세하고 정확한 코로나19 확진자 정보를 공개하고 있다. 이러한 정보가 분명 코로나19 연구에 가치있거 쓰일 거라 믿었다. 2020년 2월부터 ‘DS4C 데이터세트 구축 프로젝트’를 시작했다. 확진자 동선, 확진까지 걸린 시간, 감염원 등이 포함된 지자체 코로나19 확진자 정보를 직접 수집했고, 데이터과학자들이 쉽게 접근·분석할 수 있도록 가공했다.
 

Q. 데이터셋을 구축한 자세한 과정이 궁금하다.

한국 청년들 16명이 모여 200개가 넘는 도·시·군·구 지자체 사이트에서 제공하는 코로나19 확진자 정보들을 6개월간 모았다. 수백 개가 넘는 지자체에서 코로나19 확진자 정보를 공개하고 있는 만큼 크롤링 코드를 지자체별로 일일이 만들기 어려워 16명이 수작업으로 데이터를 수집했다. 대규모 비정형 데이터인 확진자 동선 정보에 대해서는 정형 데이터로 바꾸기 쉽도록 날짜와 장소 키워드를 파싱하는 툴을 개발해 수집했다.

이후 국내 정책과 코로나19 감염과 사망에 대한 인과를 보기 위해 어떤 변수를 어떻게 활용할지 고민했다. 선행 연구로 먼저 인사이트를 얻고 나서 DS4C 데이터세트로부터 확진받기까지 걸린 기간, 사망 여부, 감염 속도, 각종 정책 관련 변수들을 추출했다. 다음으로 PC 알고리즘을 통해 인과 관계 연구에 활용할 수 있는 유의미한 변수들을 추렸고 XGBoost 알고리즘으로 확률을 추정했다.
 

Q. PC 알고리즘과 그라디언트 부스팅(gradient boosting)알고리즘을 사용해 인과관계를 분석했는데?

PC 알고리즘은 다수의 변수들이 주어졌을 때, 변수들이 가지는 인과 관계를 그래프로 구축하는 알고리즘이다. 코로나 감염과 사망은 다양한 원인들에 영향을 받는다. 성별, 나이부터 감염원, 확진 받기까지의 기간, 이동 횟수같이 복잡한 요인들이 서로 영향을 준다.

PC 알고리즘으로 이들 변수 간 관계를 순서대로 따져 서로 독립적인 관계에 있는 변수들이 무엇인지 순서대로 파악했다. 이를 통해 코로나 감염 분석에 유의미한 변수들을 추출하고 예측모델의 기반이 되는 인과 구조를 도출했다. 확률 추정을 위한 예측 모델 설계에는 그라디언트 부스팅(gradient boosting)을 활용한 XGBoost 알고리즘을 사용했다.
 

Q. 사회적 거리 정책이 코로나19 전염 속도를 줄인다고 분석했다.

사회적 거리 정책 영향을 판단하기 위해 ‘전염 속도 비율’을 변수로 정했다. 전염 속도 비율이란 전날 코로나19 확진자 수 대비 오늘과 어제의 코로나19 확진자 수 차이다. 높은 숫자일수록 확진자 간의 전염이 빠르게 일어나는 것을 수치화한 것이다.

사회적 거리 정책이 시행되기 전에는 전염 속도 비율이 평균 0.6으로 아주 높았다. 반면에 사회적 거리두기를 처음 시행한 1단계에서는 전염 속도 비율이 평균 0.01정도였으며 2단계 시행 시에는 평균 0.1정도로 나타났다. 즉, 사회적 거리 정책을 실시한 후 전염 속도가 상당히 줄어드는 것을 입증할 수 있었다.
 

Q. 마스크 분배 정책이 감염 속도를 줄이는 효과도 입증했다.

마스크와 전염 속도 비율 간 관계를 보고 확률을 추정했다. 그 결과, 전 국민이 마스크를 공급받을 수 있는 시점인 마스크 5부제를 시행한 날을 기점으로 전염 속도 비율이 시행 전 0.36에서 0.01로 줄어드는 것을 확인했다. 마스크가 바이러스 전파를 막는데 효과적이라는 것을 보여준 하나의 방법이라고 생각한다.
 

Q. 캐글 금메달 수상부터 시작해 최근 뉴립스에서도 연구를 발표했다.

DS4C의 코로나19 데이터세트는 현재 캐글에 배포된 약 6만7000개 데이터세트 중 좋아요(upvote) 기준으로 34위, 코로나19 관련 데이터세트 중에서는 3위에 올라와 있다. 캐글 금메달을 받은 데이터세트 구축팀 중 한국 연구팀 특히 학생 연구자들로 이뤄진 팀은 드문 것으로 알고 있다.

이후 우리 데이터세트가 인과적 발견(Causal discovery) 연구 분야에서도 활용이 가능하다는 점을 보여주고자 2020년 뉴립스 워크숍, '인과적 발견 및 인과관계 기반 머신러닝(Causal Discovery & Causality-Inspired Machine Learning)’의 데이터셋세트부문에 참가했다.
 

Q. 뉴립스에서 연구를 발표했을 때 반응은 어땠나?

가장 먼저 피부로 접할 수 있던 반응은 데이터세트의 디테일에 관한 놀라움이었다. 외국의 경우 문화와 행정 차이로 인해 한국처럼 상세한 코로나 관련 정보를 제공하지 못한다. 일별 전체 누적 정보와 같이 합산된 정보에만 접근이 가능하다.

이러한 상황을 고려했을 때 논문을 접한 이들이 데이터세트의 세밀함과 정보량에 놀라는 것은 어느 정도 당연한 일이다. 코로나19 확진자 동선, 확진까지 걸린 기간, 감염원 등과 같은 정보는 우리나라 데이터세트에만 존재하기 때문이다.

사실 뉴립스 발표 이전 캐글에 공개했을 때부터 이미 협업 제안과 같은 긍정적인 피드백을 꾸준히 받고 있었다. 캐글에만 데이터세트를 올렸음에도 불구하고 이미 약 11개 논문에 인용된 상태였다. 이러한 관심은 언급한 바와 같이 데이터세트의 대체불가능성 때문으로 생각된다.

많은 관심을 받은 또다른 부분이라면 비영리적인 목적으로 대학생, 대학원생들이 프로젝트를 시작한 것이었다. 학생들이 자발적으로 팀을 꾸려 코로나19 관련 데이터세트로 사회에 공헌하려는 시도를 좋게 봐준 것 같다.
 

Q. DS4C의 다음 계획이 궁금하다.

캐글과 뉴립스에서 공개한 논문은 전체 데이터세트 중 일부다. 이제까지 받은 피드백을 토대로 전체 데이터세트에 대한 논문을 작성할 예정이다.

다만 현재 마주한 큰 이슈는 데이터세트를 완전히 가명화해 환자들의 사생활 침해 요소를 완전히 제거하는 작업이다. 코로나 종식을 위한 데이터세트도 중요하지만 보다 중요한 일은 환자 개인정보가 데이터세트에 들어가 개인 정보를 침해할 가능성을 없애는 것이라고 생각한다.

캐글에 공개하고 있는 기존 데이터에 대해서는 우선 모두 가명화가 된 상태다. 이후 더 많은 데이터에 대해 어떻게 가명화를 할 지에 대해서는 고민이다. 우선 데이터3법 관련 법적 자문을 받고 활발히 논의해보려 한다.

한국에서 제공하는 코로나 관련 데이터의 질은 앞서 말한 바와 같이 다른 나라의 데이터세트보다 월등하다. 다만 데이터 정규화 부재로 인해 아직 학회를 비롯한 세계적인 연구의 장에서 많이 알려져 있지 않다.

우리의 최종 목표는 이러한 데이터를 모아 정제하고 연구논문을 써서 세계에 한국 데이터세트를 알리는 것이다. 이로 인해 코로나로 고통받는 사람들에게 도움을 줄 수 있을 것으로 기대한다.

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]페이스북& 뉴욕대, 의사보다 정확하게 코로나19 환자 증상 악화 예측하는 AI 개발

[관련기사]카이스트 ICLR 21' 선정 세계 7위! 황성주 교수 개인별 TOP 6

키워드 관련기사
  • AAAI 2021 역대급 논문 실적 "놀라울 정도 수준" 카이스트 제출 8편도 채택
  • AI계 노벨상 '튜링상' 수상자 3인, NeurIPS 2020 워크숍에서 함께 발표
  • 카카오·카이스트·성신여대·숭실대, 세계 저명 AI학회 NeurIPS2020에 잇달아 논문 선정