한국·싱가포르·영국 3개국의 약 30명 연구자들이 보건의료 인공지능(AI) 기술 사용 가이드를 공동 개발했다. 아시아와 유럽 전문가들이 합심해 해당 분야 결과물을 낸 것은 처음이다.
이번 가이드는 의료 AI를 활용해 의사 결정을 해야 하는 의사는 물론, 정책 입안자와 언론인, 환자까지 대상으로 한다. 의료인 이외 다양한 사람을 염두에 둔만큼 대중적인 언어와 사례 연구를 사용했다.
주요 내용은 의료 AI 개발·활용 시 주의해야할 사항들과 관련 사례들이다. 특히 데이터 신뢰성과 편향성에 영향을 미치는 요소들을 언급하고 개선 방법을 제시한다.
KAIST(총장 이광형)는 ʻ사회를 위한 보건의료 분야 인공지능 활용 가이드(Using Artificial Intelligence to Support Healthcare Decisions: A Guide for Society)ʼ를 국제 공동연구를 통해 제작했다고 15일 밝혔다.
우리나라에서는 KAIST 한국4차산업혁명정책센터(이하 KPC4IR)·AI대학원·바이오 및 뇌공학과, 서울아산병원, 분당서울대병원, 과학기술정책연구원, 정보통신정책연구원, 뷰노가 참여했다.
싱가포르에서는 싱가포르국립대 리스크공공이해연구소, 테크놀로지기업 어피니티가 동참했다.
영국 내 참여기관은 과학 기술 비영리 기관인 센스 어바웃 사이언스, 영국 로이드 선급 재단, 가이 앤드 세인트 토마스 국가보건서비스 재단 3곳이다. 이외 스페인 마드리드 카를로스 3세 대학교가 연구에 참여했다.
국내외 총 30여명 전문가들이 지난 1년 동안 국제 공동 연구를 진행했다. 참여 방법은 자문, 인터뷰, 워크숍 등이다.
◆신뢰할 만한 AI 만드려면 데이터부터 점검해야...편향 가능성 수두룩
가이드에서는 사용 가능한 의료 AI를 개발하거나 판별하기 위해서는 사용 데이터가 중요하다고 강조했다.
구체적으로는 ▲출처가 정확한 데이터 사용 ▲사용 목적에 맞는 데이터의 수집 또는 선택 ▲제한 사항과 가정의 정확한 언급 ▲데이터의 편향성 명시 ▲실제 환경에서의 적절한 테스트 여부 5가지를 점검할 필요가 있다고 제안한다.
신뢰성을 떨어뜨리는 편향적인 데이터 사용 가능성은 생각보다 무궁무진하다는 주장이다. 인종, 성별, 연령군 등 여러 요인이 AI 판단에 개입할 수 있다. 데이터가 이를 충분히 반영하지 않거나 개발자나 사용자가 이를 인지하지 못할 경우 제대로 의료 AI를 사용할 수 없다는 것.
예를 들어 심장 관련 건강문제는 성별에 따라 차이를 보이기 때문에 성별이 중요한 고려 요인이 될 수 있다. 즉, 성별 데이터가 누락될 경우 AI 결정에 편향이 일어날 수 있다는 의미다.
치료비를 지불할 여유가 있는 사람만을 위주로 데이터를 수집한다면 부유한 사람들의 건강 상태만을 편향적으로 반영할 것이다. 즉 의료기관 데이터만 추출할 경우 의료 서비스를 받지 않는 사람들의 데이터를 배제할 수 있다.
환자가 적어 데이터 수집부터 관건인 질환의 경우 특히 어렵다. 가이드에서는 “데이터 대표성 문제를 해결하는 일이 어려운 이유로 보건 연구에서 잘 다루어지지 않는 일부 집단에 대한 데이터 자체가 충분하지 않은 점을 들 수 있다. 환자 표본 자체가 적은 질병을 다루기 위해서는 데이터 익명화 조치도 더 강력하게 진행해야 한다”고 설명했다.
◆실제 현장에서도 잘 작동하는지 확인해야
사용할 만한 AI인지 평가하기 위해서는 ▲올바른 연관 관계를 잘 찾아냈는지 ▲모델에서 제외된 변수가 실제로도 관련이 없는 변수인지 ▲결과를 일반화할 수 있는지 ▲의사결정 시 인간의 편견을 제거하였는지 확인해야 한다.
특히 학습 외 데이터, 실험실 밖 환경에서 AI가 제대로 작동하는지 점검하는 것이 중요하다. 기본적인 방법으로는 AI를 실제 환경에서 시험하는 ‘외부 검증’이 있다.
가이드에서는 “AI 기반 의료 소프트웨어 회사가 자체 시험 시 나왔던 정확도를 실제 병원 데이터로도 얻을 수 있는지 시험해 볼 수 있다. 외부 검증 시에는 AI를 직접 개발한 사람들이 아닌 다른 전문가들이 시험을 주도해야 하며, 실패와 의도치 않은 결과가 있을 경우 이를 모두 보여줘야 한다”고 강조했다.
학습 데이터에서부터 문제가 있는지 확인하는 방법도 있다. 연구진은 “신뢰성을 시험하는 이상적인 방법 중 하나로 AI 학습 데이터 중 일부를 미리 떼어놓고, 이후 AI가 이 데이터에 적용됐을 때 의도한 목적대로 기능하고 결과를 예측하는지 알아보는 방법이 있다”고 말했다.
이어 “학습 데이터로는 아주 잘 작동하던 AI가 새로운 데이터에 적용됐을 때에는 터무니없는 예측 결과를 도출하는 경우도 있다. 이는 해당 모델과 관련이 없는 변수를 걸러내지 않았거나, 모델이 데이터에 내재된 연관관계를 제대로 파악하지 못했기 때문”이라고 설명했다.
◆분야 중요도에 따라 의사 결정 중요...의료인 데이터 교육 필요
AI 적용 분야의 성격에 따라 AI에 요구되는 정확도는 달라진다. 대상 분야 중요성이 클수록 의사 역할과 필요한 AI 정확도는 높아진다. 결국 의사 없이 단독으로 결정하는 의료 AI는 지금으로서는 고려할 수 없다는 입장이다.
연구진은 “AI가 아주 신뢰할 만한, 최고 품질의 데이터로 개발됐다 하더라도 의사는 자신이 가진 모든 의학적 근거를 바탕으로 AI 기반 권고 사항의 옳고 그름을 판단해야 한다. 즉, 최종 결정은 기계가 아닌 의사가 내려야 한다는 말”이라고 강조했다.
동시에 “AI 신뢰성을 평가할 때 AI 판단에 무엇이 달려 있는지를 고려해야 한다. 식이요법과 운동에 대한 일반적인 조언을 제공하는 라이프스타일 앱은 적당한 수준으로만 신뢰할 수 있어도 괜찮다. 반면 알코올 중독증 재발율을 예측하는 일에는 별로 쓸모가 없다고 판단할 수도 있다“고 말했다.
질 좋은 의료 AI 개발을 위해서는 데이터 수집 단계에서부터 신경을 써야 한다. 사용 가능한 데이터를 모으는 일이 가능하도록 현장 의료진을 교육할 필요가 있다.
가이드에서는 “구글 헬스가 개발한 안구질환 진단기기의 주요한 결점은 영상 화질이었다. 간호사가 촬영한 영상의 5분의1 이상이 AI 시스템으로 판독할 수 없어 재촬영해야 했다”고 말했다.
그러면서 “의료 전문가가 고도의 훈련을 받을 경우에만 AI 진단·예측의 이론적 정확성이 실현될 수 있다는 것을 보여주는 사례”라고 강조했다.
◆개인정보 이슈만큼 신뢰성 문제에도 주목해야
KPC4IR의 이번 연구는 유럽과 아시아를 아우르는 국제 공동 연구자들이 보건의료라는 특정 분야에서 AI 기술 가이드를 제시한 세계 최초 사례다.
가이드가 마련된 이유는 보건의료 분야 AI를 뒷받침하는 데이터의 품질과 검증 여부가 생명과 직결되는 만큼 기술 타당성과 안전성이 특히 중요하기 때문.
특히 개인정보 이슈에 비해 상대적으로 소홀히 다뤄진 신뢰성 문제에 주목했다. 가이드에서는 “신뢰성 문제가 잘 다뤄지지 않은 이유는 어떻게 문제를 제기할지 어렵기 때문이다. 개개인의 사적인 정보가 안전하게 보호된다는 확신도 중요하지만, 해당 정보가 잘 사용되는가도 마찬가지로 중요하다”고 강조했다.
연구를 총괄한 김소영 KPC4IR 센터장은 "보건의료 분야의 AI 기술이 충분히 견고한지를 검증하는 질문들이 우리 사회에서 활발하게 논의된다면, 궁극적으로 AI 기술 역량을 끌어올리는 것과 동시에 신뢰할 수 있는 기준을 마련할 수 있을 것ˮ이라고 말했다.
그는 "(보건의료) AI 기술에 대한 국민 이해도를 높여 한계점과 개선 사항을 인식해나가는 과정에서 이번 가이드가 중요한 역할을 해 줄 것으로 기대하고 있다ˮ고 전했다.
KPC4IR은 이번 성과를 국제적으로 공유하기 위해 8월 15일 오전 10시부터 온라인으로 열린 ʻ2021 KDD 국제 워크숍ʼ에서 연구 내용을 발표했다.
가이드 전체 내용은 KAIST 한국4차산업혁명정책센터와 싱가포르국립대 리스크공공이해연구소 홈페이지에서 확인할 수 있다.
AI타임스 박성은 기자 sage@aitimes.com
[관련기사]미 의료진들이 공감하는 것..."편견없는 AI의료기기 개발 위해 다양한 빅데이터 인프라 구축해야"
