X선만 보고 인종을 구별할 수 있을까? 매사추세츠 공과대학(Massachusetts Institute of Technology)과 하버드 의과대학(Harvard Medical School)의 연구원을 포함한 국제 과학자 팀이 X선으로 환자의 인종을 정확하게 예측하는 놀라운 능력을 가진 인공지능(AI) 모델을 훈련했다.
보스톤 글로브(Boston Globe)에 따르면 의학 저널인 The Lancet 에 게재된 이 연구는 X선과 CT 스캔을 읽도록 훈련된 AI 프로그램이 90%의 정확도로 사람의 인종을 예측할 수 있음을 발견했다. 그러나 연구를 수행한 과학자들은 컴퓨터가 그것을 어떻게 알아내는지 전혀 모른다고 말한다.
MIT의 전기 공학 및 컴퓨터 과학 조교수이자 이 논문의 공동 저자인 마르지예 가세미(Marzyeh Ghassemi)는 "대학원생들이 이 논문의 결과 중 일부를 나에게 보여주었을 때 실제로 그것이 실수임에 틀림없다고 생각했다"며 이어 “솔직히 학생들이 제게 말했을 때 그들이 미쳤다고 생각했다”라고 덧붙였다.
AI 소프트웨어가 의사의 진단 결정을 돕는 데 점점 더 많이 사용되고 있는 시기에 이 연구는 AI 기반 진단 시스템이 의도치 않게 인종 편향된 결과를 만들 수 있다는 우려를 갖게 한다. 예를 들어 X선에 액세스 가능한 AI는 특정 사람에게 최선인지 여부에 관계없이 모든 흑인 환자에게 특정 치료 과정을 자동으로 추천할 수 있다. 한편 환자의 주치의는 AI가 인종 데이터를 기반으로 진단한다는 사실을 모를 것이다.
이 연구는 과학자들이 흉부 X선 검사를 위한 AI 프로그램이 다른 인종에 비해 흑인 환자의 질병 징후를 놓칠 가능성이 더 높다는 것을 알아차렸을 때 시작되었다. 하버드 의과대학의 또 다른 공동 저자이자 부교수인 레오 앤서니 셀리(Leo Anthony Celi)는 "우리는 컴퓨터가 사람의 인종을 알 수 없다면 어떻게 그럴 수 있는지 자문했다"고 말했다.
미국, 캐나다, 호주, 대만의 과학자가 포함된 연구팀은 먼저 X선 및 CT 스캔의 표준 데이터 세트를 사용하여 AI 시스템을 훈련했으며 각 이미지에는 개인의 인종이 표시되었다. 이미지는 가슴, 손, 척추를 포함한 신체의 다른 부분에서 가져왔다. 컴퓨터로 검사한 진단 이미지에는 피부색이나 머리카락 질감과 같은 명백한 인종 표시는 포함되지 않았다.
먼저 인종 레이블이 지정된 많은 이미지를 보여준 다음 레이블이 지정되지 않은 일련의 이미지를 보여줌으로써 AI 프로그램을 가르쳤다. 이 프로그램은 종종 90%를 훨씬 넘는 놀라운 정확도로 X선 이미지에서 사람들의 인종을 식별할 수 있었다. 같은 키나 나이, 성별의 사람들의 이미지를 분석해도 AI는 흑인과 백인 환자를 정확히 구분했다. 더 놀라운 것은 AI 프로그램이 X선과 CT 스캔을 기반으로 이미지가 심하게 저하된 경우에도 인종을 정확하게 예측할 수 있다는 것이다.
가세미 교수는 이것이 피부색을 결정하는 색소인 멜라닌과 관련이 있다고 생각한다. AI가 X선과 CT 스캔은 어두운 피부의 더 높은 멜라닌 함량을 감지하고 어떤 방식으로든 눈에 띄지 않게 이 정보를 디지털 이미지에 포함시킬 것이라고 추측했다.
연구원들은 AI 시스템이 인종을 정확하게 감지할 수 있다는 것이 문제가 아니라 의료 AI 시스템이 인종 편견의 결과로 저조한 성능을 발휘하는 것으로 밝혀졌다는 것이 문제라고 강조했다. 이러한 AI는 개인의 특정 건강 기준에 관계없이 개인의 인종에 따라 진단하거나 치료를 권장하는 것으로 보이며 결과적으로 부정적인 결과를 초래할 수 있다.
논문은 AI가 인종 정체성을 예측하는 능력이 쉽게 학습될 수 있기 때문에 이미 많은 의료 이미지 분석 모델에 이런 능력이 존재할 가능성이 있으며 결과적으로 의료 행위에 이미 존재하는 인종적 불평등을 재생산하고 악화시킨다고 주장했다. 또한 AI 시스템이 알려주는 환자의 인종에 대한 이미지의 특징을 인간이 감지할 수 없다는 사실과 AI 시스템이 신체의 어느 부분에 관계없이 이미지가 크게 저하되었을 때 조차 환자의 인종을 정확하게 감지할 수 있다는 사실은 의료 영상을 사용해 인종 편견이 없는 AI 시스템을 만드는 것이 극히 어려울 것임을 의미한다고 강조했다.
셀리 교수는 “의사가 자동으로 편향된 결과를 생성할 수 있는 AI 진단 도구를 사용하는 것을 꺼려야 한다”며 “인종차별적 결정이나 성차별적 결정을 내리지 않는다는 확신이 들 때까지 병원과 진료소에서 AI 알고리즘 도입을 서두르면 안된다”고 주장했다.
AI타임스 박찬 위원 cpark@aitimes.com
