윤진성 구글 클라우드 AI 연구과학자, 구글 코로나19예측 AI코어모델 개발
적대적 학습으로 의료데이터 수집·보안·설명가능성 문제 해결
GAN을 이미지 아닌 시계열 표 데이터에 적용한 선두주자

[편집자 주] 4차산업혁명을 선도하는 국가로 발돋움하기 위해서는 인공지능(AI) 기술을 선진국 수준으로 끌어올리는 것은 피할 수 없는 도전적 과제다. 미국과 중국을 비롯한 강대국들의 틈바구니에서 우리의 목소리를 키워나갈 수 있는 길이기도 하다. 그 첫걸음이 인재 양성에 있다는 것은 주지의 사실이다.

때문에 해외 여러 곳에서 특히 미국 등 선진 국가에서 인공지능 전문가로 성장하고 있는 한국인 연구자들을 발굴하고 탐색하는 것은 매우 의미있는 일이다. 또, 미래의 한국 인공지능 기술 개발과 산업을 이끌어갈 인재들의 현재와 그 성과를 만나보는 건 즐거운 일이기도 하다.

윤진성 구글 클라우드 AI 연구과학자(사진=윤진성 박사)
윤진성 구글 클라우드 AI 연구과학자(사진=윤진성 박사)

일본이 도쿄 올림픽 개최 결정에 구글 인공지능(AI)을 사용했다. 지난해 11월 구글은 일본에 코로나19 확산 예측 웹사이트 서비스를 개시했다. 해당 서비스에서는 일본 내 현재까지 발생한 감염자, 입원자, 사망자 수 추이 데이터를 분석해 지역별 신규 감염자 예측치를 제시한다.

구글의 코로나19 예측 AI 서비스를 개발한 주역 가운데 한국인 연구자가 있다. 구글 클라우드 AI 연구과학자인 윤진성 박사 이야기다. 서울대와 미국 캘리포니아대 로스엔젤레스캠퍼스(UCLA)에서 의학이 아닌 컴퓨터공학을 전공한 윤 박사는 헬스케어 분야에서 AI를 새로운 방식으로 시도한다.

윤 박사는 생성적 대립 신경망(GAN)으로 최근 주목받고 있는 적대적 학습(Adversarial Learning)을 사용해 부족한 의료데이터를 복구하고 AI 학습에 사용할 수 있는 가상데이터를 만들었다. AI 결과물에 영향을 미친 데이터를 지목해 의료 AI 분야 최대 난제인 설명가능성 문제를 해결한 연구도 있다.

이미지 분야에서만 주로 성과를 낸 GAN을 표 데이터(Tabular data)나 시간 흐름을 담은 시계열 데이터(Time series data)에 적용한 시도 또한 선구적이다.

윤 연구원의 헬스케어 연구는 향후 구글 클라우드 AI 솔루션 개발에 적용될 예정이다. 특히 표 형식의 시계열 데이터 활용을 확대한 성과는 구글 클라우드가 고객 기업의 엑셀 자료를 주로 사용하는 만큼 보탬이 될 것으로 보인다.

헬스케어 분야를 좋아하지만 제 연구에서는 양념일 뿐입니다.

헬스케어에서 효과를 보인 코어 ML 기술은 향후 리테일, 추천시스템, 공장 불량품 검사 등 다양한 영역에서 두각을 드러낼 것입니다.

윤진성 박사와 기자가 구글 미트로 인터뷰를 진행하는 모습
윤진성 박사와 기자가 구글 미트로 인터뷰를 진행하는 모습

 

Q. 구글 클라우드 AI 연구과학자로서 주로 어떤 일을 맡고 있나?

구글 클라우드 리서치 팀원 중 하나로 구글 클라우드에서 필요로 하는 다양한 연구를 수행하고 있다. 구글 클라우드 전체 크기에 비해 리서치 팀이 작기 때문에 각각의 연구원들은 다양한 연구들을 동시에 진행하고 있다. 최근까지 집중한 것은 코로나 바이러스 예측 AI 모델 연구다.

구글 클라우드는 다양한 비지니스 고객 뿐 아니라 미국 정부, 타국 정부와도 교류하고 있다. 내가 입사한 2020년 5월에는 한창 코로나가 유행한 시기였으며, 구글 클라우드 고객들은 전염병 상황에 대처하기 위해 다양한 시도를 하고 있었다. 가장 시급한 것은 앞으로 코로나19가 어떻게 번질 것이며 얼마만큼 많은 확진자와 사망자를 만들어 낼 것인지 예측하는 일이었다.

해당 프로젝트를 위해 리서치 팀과 엔지니어링 팀에서 다수 엔지니어들이 차출돼 기존 ML 모델에 전염병 창궐에 대한 의학적 모델을 접목시킨 하이브리드 모델을 만들어냈다. 미국 전역의 3000개 이상 카운티에서 발생하는 확진자, 사망자, 병원 입원 환자, 회복 환자 수를 매일 업데이트 해야 하는 대형 프로젝트였다. 여기서 내가 맡은 역할은 코어 모델 연구다.
 

Q. 해당 서비스를 작년 미국과 일본에서 런칭한 걸로 안다.

2020년 8월 미국에서 처음 런칭한 후 일본에서도 관심을 보여 11월 일본에 맞춘 코로나19 예측 모델을 새로 런칭했다. 다른 국가가 아닌 일본에서 두 번째로 서비스를 선보이게 된 이유는 도쿄올림픽 때문이다. 도쿄올림픽 개최 여부가 달려있는 만큼 일본 정부에서는 앞으로의 코로나19 추이 정보가 절실했다.

이 AI 모델은 런칭 시점에 일본 내 코로나19 확진자가 1000명인 상황에서 2000명 이상으로 늘어날 것으로 예측했는데 그대로 들어맞아 크게 이슈가 됐다. 예측 결과를 보여주는 사이트에서 동시 접속자 60만명 이상을 기록했으며 다양한 뉴스 채널에 보도됐다.
 

Q. 우리나라에서는 확진자 동선을 비롯한 코로나19 정보를 공개하지만 미국, 일본 상황은 다르다. 데이터 수집에 있어 어려움은 없었는지?

기본적으로 개인 데이터는 사용하지 않았기 때문에 문제가 없었다. 각 국가의 시, 군, 구 단위 정부 제공 데이터만 활용했다. 얼마나 많은 사람들이 특정 지역에서 이동하고, 해당 지역 감염자 발생 추이는 어떻게 될 지만 파악하면 되기 때문이다. 개개인이 누가 감염되는지는 우리 연구에서는 고려하지 않았다.
 

Q. 한국에서 구글 코로나19 예측 서비스를 런칭할 계획은 없나?

한국에서는 미국과 일본을 비롯한 다른 나라들에 비해 코로나19 통제가 잘 이뤄지고 있어서 니즈가 크지 않을 것으로 보인다. 현재 서비스 런칭을 검토 중인 나라로는 이스라엘이 있다.
 

Q. 코로나19 유행 전부터 헬스케어 AI 연구를 다수 진행했다. 의대 출신은 아닌데 특별한 계기가 있었나?

헬스케어 연구를 시작하게 된 것은 사실 우연이었다. UCLA에 입학한 시기에 박사 지도교수가 헬스케어를 위한 ML로 연구 포커스를 급격히 바꾸면서 2015년 초부터 관련 연구를 시작하게 됐다. 지도교수인 미하엘 반 더 샤어(Mihaela van der Schaar)의 어머니가 힘든 투병 생활을 하다 떠나서 ML 연구 중에서도 헬스케어로 정한 것 같다.

사실 석박사를 하러 미국에 갈 시기에는 ML 연구에 대한 생각이 특별히 없었다. 당시에는 미국에서도 ML 연구자들을 찾아보기 힘들었고 의료 데이터를 얻는 것 또한 쉽지 않았다. 하지만 필요성은 인지하게 되면서 펀딩은 많이 이뤄졌다.

학부에서 ML을 전공하지 않은 만큼 배경 지식이 많지 않아 코어 ML 모델을 개발하기보다는 기존의 통계학적 모델들을 사용해 헬스케어 문제들을 해결하는 것부터 시작했다. 처음 진행한 프로젝트가 중환자실에서의 환자 상태를 미리 예측해서 경고를 알려주는 시스템 설계였다. 이 프로젝트가 운 좋게 성공하면서 헬스케어를 위한 ML 연구에 본격 돌입했다.
 

Q. 최근 의료 AI 분야에서 중환자 상태 예측 모델이 주목받고 있다. 필립스, GE헬스케어 등 글로벌 헬스테크 기업들도 관련 제품을 출시했는데, 상용화 전 연구 초석을 닦았다고 할 수 있나?

그렇다고 볼 수 있다. 상용화 결과물은 보통 4년 전 연구에 기반하는 경우가 많다. 2015년에 내가 중환자 상태 예측 AI 연구를 할 때는 데이터가 많지 않아 딥러닝 대신 통계적 모델을 사용했다. 이후 다른 연구들에서 우리 성과를 기반으로 딥러닝을 적용하는 등 연구를 이어나갔다.
 

Q. 우리나라에서는 사실상 각 병원이 의료데이터를 관할하는 상황이다. 의료데이터를 얻으려면 병원과의 관계가 중요한데, 미국 상황은 어떤가?

미국에서도 이전에는 각 병원별로 따로 의료데이터를 관리하고 공유가 거의 이뤄지지 않았다. 한데 모으더라도 표준화가 되어있지 않아 쓸 수가 없었다. 하지만 2017년, 2018년 정도부터 병원에서도 획일화된 데이터, 데이터 통합 수집 필요성을 인지하게 됐다. 이때부터 오픈데이터 연구가 많이 진행되고 있다. 데이터가 오픈된 만큼 보안에 대한 요구 사항은 우리나라보다 훨씬 강력하다.
 

Q. 의료기관에서 적극적으로 의료데이터를 공유하더라도 연구에 사용 가능한 데이터 확보에는 여전히 어려움이 있다고 들었다.

기본적으로 헬스케어 연구만이 가지고 있는 다양한 어려움이 있다. 먼저 병원 내 각종 검사에 비용이 드는 것처럼 측정 자체가 비싸다. 모든 환자에 대해 모든 검사를 진행하고 일괄적으로 입력하지 않기 때문에 군데군데 정보가 빈 곳이 많다. 하지만 기존 ML 모델들은 완전한 정보를 가진 데이터를 필요로 한다.

민감도가 높은 개인정보라는 점도 불완전한 데이터를 만든다. 병원, 의사들은 환자 데이터를 ML 연구자들에게 직접 주기를 꺼려하거나 여러 가지 정보를 지운 데이터를 제공한다. 결국 데이터를 받는 데에만 오랜 시간이 걸려 AI 학습 진행에 차질이 생긴다. 중요 데이터들이 지워지면 모델 성능 최적화에도 한계가 생긴다.
 

Q. AI 기술로 연구에 사용 가능한 질 좋은 의료데이터를 확보하는 방법은 없나?

물론 가능하다. 내가 주로 연구한 분야이기도 하다. 적대적 학습 모델을 사용하면 불완전한 데이터를 복원하는 데이터 귀속(imputation)이 가능하다. 데이터의 빈 곳을 채워주면 다양한 ML 모델을 적용할 수 있다.

비지도 학습 일종인 적대적 학습은 최근 각광받는 GAN이 속하는 상위 카테고리다. 실제와 유사한 데이터를 만들어내는 이 기술로 기존에 확보한 데이터 내 빈 공간에 실제 데이터와 유사한 기능을 하는 데이터를 새로 만들어 넣었다.

분류모델에서는 상대모델에서 어떤 부분이 채워졌는지, 어떤 부분이 만들어낸 것 혹은 실제의 것인지 판단하도록 설정했다. 분류모델이 진짜와 가짜 데이터를 구분하기 어려워지면 잘 만든 결과물이라 할 수 있다.

*적대적 학습이란?

적대적 학습에서는 실제와 가상 데이터를 구별하는 분류모델과 실제와 비슷한 결과값을 만들어내는 생성모델로 구성된다. 주로 경찰과 도둑에 비유되며 경찰이 분류모델, 도둑이 생성모델에 해당한다. 생성모델은 분류모델을 속일 만큼 실제와 비슷한 데이터를 계속 만들어내고, 분류모델은 가짜 데이터를 판별하는 법을 지속 학습한다. 두 모델은 서로를 적대적 경쟁자로 인식하면서 발전한다. 결과적으로 분류모델이 구별할 수 없을 정도의 데이터를 생성모델이 만들어내면 진짜 같은 가짜 결과값이 나온다.

 

Q. 일부만이 아니라 전체를 만들어낼 수도 있을 것 같은데?

그렇다. 적대적 학습 방식으로 아예 새로운 의료데이터를 만들어내는 합성·가상데이터 연구도 진행한 바 있다. 실제 데이터와 유사한 성능을 지니지만 아예 새로 편집한 가상데이터를 만들면 보안에 대한 부담을 덜고 연구에 쉽게 적용할 수 있다.

보통 기업이 기술개발을 위해 병원에 데이터를 요청하면 데이터마다 보안 위험성을 분석하고 익명화를 거쳐 전달받는데 3년 정도 걸린다. 실제 병원데이터 대신 합성데이터로 AI 학습을 진행하면 보다 빠르게 성과를 내 기업과 병원 협업과 기술개발 속도가 빨라진다.


Q. 적대적 학습 적용 헬스케어 연구 중 설명가능성에 대한 것은 특히 큰 성과로 보인다.

헬스케어 ML의 경우 다른 비전 혹은 언어 모델에 비해 설명가능성이 굉장히 중요하다. 특정 환자가 무슨 병인지, 48시간 뒤 상태는 어떨지를 ML로 예측한다고 가정했을 때, 결과값 이외에 왜 이런 판단을 했는지 설명할 수 있어야 의사들이 실제로 사용할 수 있다. 아무리 모델 정확도가 좋아도 예측값이 나온 이유를 설명할 수 없으면 의사가 모델 아웃풋을 믿기 힘들 수밖에 없다.

이와 같은 설명가능성 문제에 대해서도 적대적 학습이 돌파구가 될 수 있다. 적대적 학습을 사용해 각 환자 데이터 중 어떤 데이터가 아웃풋을 만드는데 가장 기여했는지 분석해주는 해석툴을 개발했다.


Q. 기존 의료 AI와 GAN 연구는 대부분 이미지·영상 데이터 기반인 것으로 아는데, 사용 데이터가 달라보인다.

표 형식 데이터(Tabular data)와 시간 흐름을 반영하는 시계열 데이터(Time series data)에 GAN을 적용한 것을 차별점으로 볼 수 있다. 대부분 연구자들이 어떻게 하면 이미지 데이터를 더 잘 생성하는 GAN 모델을 만들까 고민할 동안 나는 어떻게 이 GAN이라는 모델을 다양한 분야에 적용할 수 있을지를 연구했다. 이미지에만 국한되지 않은 다양한 데이터를 생성하고, 이렇게 만든 데이터를 어떻게 사용할 수 있을까에 집중했다.

헬스케어 데이터에서 영상만큼 많은 비중을 차지하는 것이 차트 데이터다. 하지만 여기에 GAN을 적용하려면 어려움이 많기 때문에 관련 연구는 많이 되어 있지 않은 상황이다.

이미지 데이터에는 합성곱 신경망(CNN)이라는 특화된 모델이 있는데 표 데이터의 경우 마땅한 네트워크 모델이 없다. 특히 시계열 데이터의 경우 시간적 관계가 중요해 해당 특성에 맞는 네트워크를 만드는 것이 중요하다. 맞지 않는 모델을 사용할 경우 오히려 성능이 나빠질 수도 있다.

작년 뉴립스에서 발표한 연구에서는 시계열 데이터에 GAN을 비롯한 자기지도학습, 반지도학습을 적용하는 방법을 제시했다. 해당 연구를 통해 기존의 10% 레이블만을 이용해 일정 수준 이상 성능을 보이는 모델을 만들었다. 한 해 전인 2019년에는 시계열 생성 적대 네트워크에 대한 논문을 뉴립스에서 발표했다.


Q. 해당 연구 성과들을 향후 구글 클라우드 서비스에도 적용 가능한지?

충분히 가능하다. 구글 클라우드가 주로 다루는 데이터가 고객 기업의 시계열 표 데이터이기 때문이다. 다들 구글이라 하면 아주 규모가 큰 데이터를 사용해 모델을 만들거라 생각한다. 반면 내가 일하고 있는 구글 클라우드 팀에서는 B2B 연구를 굉장히 많이 하고 있으며 여기서는 고객사 데이터에 의존해야 한다. 일반 기업들은 대부분 이미지보다는 시간 순서에 따른 표 자료를 많이 쓴다.

고객사 데이터를 기반으로 AI 솔루션을 만들 때 단순히 지도학습만으로 학습을 시도하면 과적합 확률도 높아지고 모델 자체가 불안정해지는 경우가 많다. 또 레이블이 없는 데이터들은 다 버리게 되거나 레이블을 모두 달아달라고 고객에게 요청해야 하기 때문에 연구 속도가 굉장히 느려지고 비용이 많이 들어간다. 데이터가 많으면 많을수록 좋지만 고객사에 다 맡길 수도 없는 노릇이다.

이 때 비지도학습을 사용하면 적정한 양의 데이터 레이블링 값을 판단할 수 있다. 적은 레이블 데이터와 많은 레이블 데이터 성능을 비교하는 것이다. 레이블링을 많이 한다고 무조건 좋진 않다. 예를 들어 레이블 10개와 100개는 성능 차이가 크지만, 100개와 1000개는 차이가 적고, 10만개와 11만개는 거의 비슷하다. 중요한 것은 초반 레이블링이다.

해당 분야 연구는 전세계적으로 아직 거의 이뤄지지 않은 상황이다. 시계열 데이터에 대한 연구는 2년 전 처음 등장했으며 작년부터 주목받기 시작했다. 앞으로 구글에서 관련 연구에 집중할 예정이다.

헬스테크 기업이 아닌 구글 클라우드에서 윤진성 연구원이 의료 AI 연구를 진행할 수 있었던 배경에는 ‘20% 프로젝트’가 있다. 회사 업무 80% 이외 20%는 연구원 개개인이 원하는 연구를 마음껏 진행할 수 있도록 지원하는 구글 방침이다. 구글의 대표적인 메일 서비스인 지메일(Gmail)도 여기서 탄생했다.



Q. 헬스케어 AI 연구도 계속 이어나갈 예정인지?

헬스케어 연구를 좋아하고 재밌어하지만 구글 클라우드는 헬스테크 회사가 아니다. 이제까지 진행한 연구도 사실 헬스케어만을 위한 연구라고는 할 수 없다. 결국 코어 ML 논문들로 헬스케어 이외 분야에도 얼마든지 활용 가능하다. 앞으로 리테일, 추천 시스템, 공장 불량품 검사 등 다양한 분야에 연구한 기술을 적용할 계획이다.

AI타임스 박성은 기자 sage@aitimes.com

[글로벌 Lab 젊은 과학자] “대칭구조 반영 딥러닝으로 AI 핵심 문제 해결에 도전”...딥마인드 김현직 박사

[글로벌 Lab 젊은 과학자] 알파고를 넘어 새로운 강화학습 세계를 연다...딥마인드 오준혁 박사

키워드 관련기사
  • [글로벌 Lab 젊은 과학자] "향후 10년 컴퓨터 비전 분야 비약적인 변화 보일 것"....미 캘리포니아대 이용재 교수
  • [글로벌 Lab 젊은 과학자]구글과 4족 로봇 만든 하세훈 미 조지아텍 교수
  • 구글, 하버드대와 공공 코로나19 예측 AI모델 발표