유방조영사진 검사에 AI 도입은 정확성, 임상적 효과에 증거 불충분
6명의 방사선 전문의와 AI, 유방암 판독 결과 놓고, 서로 다른 결과
AI, 올바른 학습이 중요한데, 병리학자들간 초기 진단 불일치 존재해

(출처=셔터스톡)
(출처=셔터스톡)

최근에 나온 영국 한 대학의 유방암 관련 연구 결과는 기존 관념을 뒤집는 것이어서 관련 의료계에 파문이 일 것으로 전망된다.

지난 23일 영국의 기술 전문 미디어 ‘테크레지스터’(Techregister)에 따르면, 영국 워릭대 연구팀은 인공 지능에 의한 유방암 검진이 방사선 전문의보다 정확도가 떨어진다는 연구 결과를 발표했다.

하지만, 그동안 밝혀진 결과들은 주로 인공 지능을 이용한 유방암 검진이 방사선 전문의보다 정확도가 높다는 것이었다.

유방암 검진에 이미지 인식을 위한 인공 지능(AI) 시스템을 사용하면, AI 독립적으로 실행하든, 방사선 전문의의 보조 수단이든, 환자의 유방암 탐지가 개선될 수 있다는 것이 의료계의 판단이었다.

실제로도 방사선과 의사보다 더 나은 진단 성능을 보였다는 AI 스크리닝 알고리즘의 가치를 뒷받침하는 증거들은 많다.

그럼에도 불구하고, 지난 2019년의 평가는 AI 시스템이 유방암 검출에 대해 정확도는 높지만, 방법론적 우려와 더불어 임상적 유방암 검사로 옮기는 것을 제한하는 근거가 존재한다고 결론 내렸다.

이런 우려에 비춰서, 과거에 영국 워릭 대학교는 영국 국립 심사 위원회로부터 한 가지 의뢰를 받았다. 그것은 유방암 검사에 유방 촬영 이미지 분석을 위해 AI를 도입할 충분한 증거가 있는지를 결정하기 위한 체계적인 검토이었다.

올해 5월까지 워릭 대학 연구팀은 문헌 검색을 실시했고, 디지털 유방 조영 사진에서 유방암을 검출하기 위해 단독으로 또는 방사선 전문의와 합동으로 AI 알고리즘의 정확도를 보고하는 연구를 진행했다.

연구팀은 기준치로서 검사 후 또는 후속 검사 중 증상이 나타난 경우, 조직검사 표본의 조직학적 분석에 의해 확인된 암을 포함했다.

이는 유방암 검진을 받는 131,822명의 여성을 포함, 총 12개의 연구 과제였다. 독립형 AI 시스템을 사용한 연구에서 알고리즘은 암 위험 점수를 계산해 고(리콜) 위험 또는 낮은(리콜 없음) 위험에서 여성을 분류했다.

그 결과, 방사선과 의사를 보조하는 경우, AI 시스템은 단순히 의심스러운 수준을 제공했을 뿐이다.

두 번의 대규모 연구는 76,813명의 여성을 대상으로 AI 시스템과 방사선 전문의를 비교하는 것이었다. 여기서 AI 시스템의 96%가 단일 방사선 전문의보다 정확도가 낮았고, 이중 판독보다 모두 정확도가 낮았다.

전체적으로, 연구팀의 저자들은 연구 방법론에서 상당한 이질성을 보고했으며, 그중 일부는 편견과 적용 가능성에 대해 높은 우려를 나타냈다.

이번 연구에서 그들은 “검진 경로의 어느 곳에서든, 유방 조영 사진을 검사하기 위해 AI를 도입하는 것은 그 정확성 측면이나 임상적 효과에서 증거가 불충분하다”고 언급했다.

결론적으로, 유방암 검진을 위한 AI 시스템은 임상 실무에 구현하는 데 필요한 품질과 양을 갖추는 것과는 거리가 멀다고 연구팀의 저자들은 주장했다.

전 세계적으로, 지난해에만 유방암 진단을 받은 약 230만 명의 여성 중, 68만 5천 명이 사망했다.

워릭 대학교의 최근 연구는 유방암 환자들에게 찬물을 끼얹는 보고가 아닐 수 없다. 하지만 이 연구 결과에도 불구하고, 기존의 많은 연구 들은 아직도 AI 기반의 유방암 검진 시스템에 대한 한 가닥 희망을 보여준다.

지난해 1월 20일 전문 기고가 토어 벤슨(Thor Benson)은 기술 전문 매체 인버스(Inverse)에 “구글의 유방암 진단이 의사보다 낫다”는 내용의 칼럼을 썼다.

“암을 조기에 발견하는 것이 암을 이기는 가장 좋은 방법”이라고 전제한 그는 “유방암이 퍼지기 전에 치료를 시작하기 위해서는 가능한 한 빨리 발견하는 것이 중요하며, 인공 지능이 도움을 줄 수 있을 것으로 보인다”라고 밝혔다.

벤슨에 따르면, 최근 네이처지에 발표된 한 새로운 연구는 방사선 전문의보다 X선 영상에서 AI가 유방암을 더 잘 진단할 수 있는 시스템이라는 것이다.

구체적으로, 구글 헬스와 임페리얼 칼리지 런던의 연구원들이 훈련시킨 AI 시스템은 거의 29,000개의 유방조영사진의 X선 영상을 사용해 유방암을 진단했다. 그 결과, 6명의 방사선 전문의보다 더 효과적으로 진단할 수 있었다는 내용이다.

“전 세계에 판별 프로그램이 존재하지만, 유방조영사진의 해석은 높은 비율의 잘못된 긍정과 부정에 의해 영향을 받는다”라고 이 연구팀은 밝혔다.

또 “우리는 유방암 예측에 있어서 인간 전문가들을 능가할 수 있는 인공 지능 (AI) 시스템을 제시한다.”라며, “AI 시스템은 어떤 단일 방사선 전문의보다 더 나았고, 두 명의 방사선 전문의가 함께 일하는 그것만큼이나 훌륭했다”라고 덧붙였다.

연구팀에 따르면, 개인 방사선 전문의보다 잘못된 긍정을 적게 나타냈고, 그것은 잘못된 긍정을 5.7% 감소시켰다. 또 잘못된 부정은 9.4% 감소시켰다.

AI 검사 시스템은 방사선 전문의의 부족 문제를 해결하는 데 도움이 될 수 있으며, 의사들이 누군가를 오진하는 횟수를 줄이는 데 도움을 준다고 결론지었다.

AI와 방사선 전문의 비교 불가해

지난해 1월 30일 미국 CNN은 한 유방암 여성 환자의 이야기를 전하면서, 유방암 진단에서 AI 시스템과 방사선 의사의 능력을 비교하는 기사를 다뤘다.

CNN에 따르면, 네이처 최신 호에서 방사선 전문의와 마찬가지로 AI 시스템은 유방조영사진을 100% 정확하게 검사하지 못했지만, AI 시스템에서 잘못된 긍정과 잘못된 부정은 더 적었다. 즉, 미국에서 각각 5.7%, 1.2%, 그리고 영국에서 각각 9.4%, 2.7% 감소했다.

6명의 방사선 전문의와 비교한 결과, AI 시스템은 전반적으로 그들 모두보다 더 정확했다는 것이다.

잘못된 긍정은 무섭고 불필요한 생체검사와 도움이 되지 않는 공포로 이어질 수 있으므로 유방암 검진에서 중요한데 이보다 잘못된 음성반응이 훨씬 더 심각하다고 밝혔다.

그 이유는 암을 방해받지 않은 채, 최소한 1년 더 자라게 하기 때문이다. 그런데도, 두 가지 사례에서 방사선 전문의와 AI 시스템은 우열을 비교할 수 없다고 밝혔다.

AI 시스템은 암을 악성종양으로 정확하게 식별했지만 6명의 방사선 전문의는 이를 음성으로 판별했다. 반대의 결과도 있는데 AI 시스템이 놓친 암을 6명의 방사선 전문의는 양성 판정을 얻어냈다.

AI 시스템은 일반적인 유방 조직으로 확장된 ‘침습적’ 암을 더 잘 식별한 반면, 방사선 전문의들은 침습적 암을 현장에서 보는 데 능숙했다.

AI 판독이 의사 두 명보다 뛰어나

퍼거스 월시(Fergus Walsh) BBC 의학 기자는 AI가 유방암 진단에서 의사들을 능가한다는 데 동의한다

지난해 1월 2일 그는 BBC 온라인 뉴스에 네이처 저널의 한 연구를 인용해 이 같은 기사를 썼다.

퍼거스의 기사에 따르면, 인공 지능은 유방조영사진으로 유방암을 진단하는 데 의사들보다 더 정확하다는 것이다.

구글 헬스 & 임페리얼 칼리지 런던의 연구원들을 포함한 국제 팀은 거의 29,000명의 여성들의 X선 사진에 대한 컴퓨터 모델을 훈련시켰다.

그 결과, 알고리즘이 유방 조영사진을 읽는 데 있어서 6명의 방사선 전문의를 능가한 것으로 나타났다. AI는 여전히 두 명의 의사가 함께 일하는 것만큼 훌륭했다고 그는 주장했다.

전문가들은 “AI가 인간을 능가하는 비결은 지칠 줄 모르는 힘이며, 이를 통해 AI는 탐지력을 향상시킬 수 있다”고 말한다.

일례로, 영국 국민 보건 서비스(NHS)의 현재 시스템은 두 명의 방사선사를 활용해 여성의 X선을 분석하는 연구를 진행했다.

이 연구에서, 인공 지능 모델은 익명의 이미지를 제공받아서 여성의 신원을 확인할 수 없었고, 환자의 병력에 접근할 수 있었던 인간 전문가들과 달리, AI는 유방조영사진만 갖고 있었다.

그러나 결과적으로, 인공 지능 모델은 두 의사의 이중 판독 시스템만큼 훌륭하다는 것을 보여주었다. 그리고 그것은 사실 한 명의 의사보다 암을 발견하는데 더 뛰어났다.

한 명의 방사선 전문의와 비교했을 때, 유방조영사진에서 잘못된 양성이 1.2% 감소했다. 또 암이 누락되는 허위 음성도 2.7% 감소했다.

구글 헬스의 도미닉 킹은 “우리 팀은 이 연구 결과에 대해 매우 자랑스러워하고 있는데, 이 사실은 임상의들이 유방암을 더 정확하게 발견할 수 있는 도구를 개발하고 있다는 것을 암시한다”라고 말했다.

참고로, 유방 조영사진을 해석할 수 있는 방사선 학자가 되기 위해선 의사와 전문의 경력이 10년 이상 필요한 것으로 알려졌다.

초기 진단 불일치는 AI에 문제

아데울 애덤슨(Adewole S. Adamson)은 텍사스 대학 델 의대 내과 조교수다. 길버트 웰치(Gilbert Welch)는 보스턴 브리검 여성 병원의 수술 및 공중 보건 센터의 선임 연구원이다.

지난해 1월 19일 그들은 시사 종합지 스테이츠맨에 낸 기고에서 “AI는 초기 암 진단의 모호함을 해결할 수 없다”고 논평했다.

그들의 기고에 따르면, 구글 헬스의 연구원들은 수만 장의 유방조영사진을 사용해 AI 시스템을 훈련시키기 위해 미국과 영국의 학술 의료 센터와 협력했다.

하지만 “최고의 인공 지능 시스템도 초기 암 진단을 둘러싼 불확실성을 고칠 수 없다”고 그들은 주장했다.

그 이유에 대해서 AI 시스템이 어떻게 학습하는지를 먼저 이해해야 한다고 설명했다. AI 시스템은 ‘암’또는‘암이 아님’으로 표시된 이미지로 훈련하는데 모양, 밀도, 가장자리 등과 같은 암 레이블과 관련된 특징들을 이미지로부터 추론하는 것을 배운다.

따라서 그 과정은 레이블이 올바르게 지정된 데이터로 시작하는 데 전적으로 의존한다.

그리고, AI 유방 검사의 초기 진단은 비정상적인 유방 조영 촬영 후, 현미경으로 유방 조직검사 검체를 검사한 병리학자에 의해 결정된다. 즉, 병리학자가 유방 조영사진에서 암인지, 아닌지를 판별하는데 불행하게도, 이 기준은 문제가 있다고 그들은 주장했다.

동일한 검체 표본을 갖고도 병리학자마다 의견이 다를 수 있다는 것이다. 이러한 의견 불일치는 초기 작은 암의 경우, 훨씬 더 큰데 이는 암 사이에 암이 아닌 회색 영역이 있기 때문이라는 설명이다.

이 중간 부위의 진실은 병리학자들의 암 과다 진단으로 이어질 수 있고, 방사선 전문의들이 유방 조영사진을 읽는 것에도 존재하며, 이는 인공 지능이 해결하려고 하는 문제라고 지적했다.

그들은 “인공 지능은 초기 암 진단을 둘러싼 모호함을 해결할 수는 없지만, 그것들을 밝혀내는 데 도움을 줄 수 있다”고 밝혔다.

또 “우리는 AI가 중간 범주인 회색 영역을 인식하도록 훈련시키는 것이 기술 발전에 중요한 진보가 될 것이라고 믿는다”고 말했다.

AI타임스 조행만 객원기자 chohang5@kakao.com 

[관련 기사]질병 진단에 혁신을 가져오는 AI, 진료의 통찰력을 높인다

[관련 기사]AI, 암 조기 발견에 획기적 능력 발휘...CADU AI는 의료기기로 최초 승인돼

키워드 관련기사
  • ‘커져가는 NLP 중요성’... 미 IT 기업, 지난해 비해 NLP 예산 10% 증가
  • 마이크로소프트, 아태지역서 IT 분야 여성인재 발굴 프로그램 선보여
  • 엔비디아, MLPerf 성과로 Arm 인수 필요성 강조...양사 CPU와 GPU의 시너지 효과 입증