의료 분야 질문에 안전하고 유용한 답변 생성

(사진=셔터스톡)
(사진=셔터스톡)

구글과 딥마인드가 의료 전문가와 환자가 제기한 질문에 안전하고 유용한 답변을 생성하도록 설계한 ‘메드팜(Med-PaLM)’이라는 인공지능(AI) 기반 챗봇을 출시했다고 기술매체 인터레스팅엔지니어링이 지난 4일(현지시간) 보도했다. 

챗봇은 질문을 이해하고 일반 언어로 텍스트 응답을 생성하도록 설계된 대규모 언어 모델(LLM)이다. 메드팜은 특별히 의료 분야에 맞춰진 LLM이다.

메드팜은 5400억개의 매개변수로 구성된 구글의 LLM인 ‘팜(PaLM)’을 기반으로 설계되었으며 전문 의료 검사, 연구 및 의료에 대한 소비자 질문을 다루는 7개의 질문-응답 데이터 세트에 대해 훈련을 받았다. 

이러한 데이터 세트 중 6개(NedQA, MedMCQA, PubMedQA, LiveQA, MedicationQA 및 MMLU)가 이미 설정되었지만 구글과 딥마인드 팀은 온라인에 게시된 건강 상태 및 관련 증상에 대한 질문을 사용하여 선별된 ‘헬스서치QA(HealthSearchQA)’라는 데이터 세트를 자체 개발했다.

의료용 AI 챗봇 ‘메드팜’ (사진=구글)
의료용 AI 챗봇 ‘메드팜’ (사진=구글)

이 프로젝트의 연구원들은 지식 검색, 임상 의사 결정 지원, 연구의 주요 결과 요약, 환자의 1차 진료 문제 분류를 포함해 여러 가지 가능한 응용 프로그램을 제공하고 현재로서는 고무적으로 수행되지만 여전히 불완전함을 인정한다. 

예를 들어, 잘못된 정보 검색은 메드팜 응답의 16.9%에서 나타났고 인간 임상의는 4% 미만이었다. 또 잘못된 추론은 메드팜이 10%, 인간 임상의가 2%였고 부적절하거나 잘못된 응답 내용은 메드팜이 18.7%, 인간 임상의가 1.4%로 비슷한 차이가 있었다.

연구팀에 따르면 메드팜은 특히 ‘플랜팜(Flan-PaLM)’이라는 기존 최고 성능의 의료용 LLM에 비해 성능이 매우 뛰어나다. 플랜팜 응답의 61.9%만이 임상의가 제공한 답변과 일치한 반면 메드팜은 92.6%가 임상의의 답변과 일치했다.  

한편, 메드팜 답변의 5.8%만이 잠재적으로 부정적인 결과에 기여하는 것으로 간주되었으며, 이는 임상의가 생성한 답변의 6.5% 및 플랜팜 답변의 29.7%와 비교된다. 이것은 메드팜의 응답이 훨씬 더 안전하다는 것을 의미한다.

메드팜은 다른 모델에 비해 정확도가 높아진 점이 큰 장점이다. 중요한 것은 이러한 모델이 어떻게 의사 및 기타 의료 전문가에게 완전히 신뢰받을 수 있는지다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • 거짓도 사실처럼 답변하는 인공지능 '챗GPT'
  • 딥마인드, 안전한 AI 챗봇 ‘스패로우’ 공개
  • 구글, 5400억 매개변수 초대형 언어 모델 ‘PaLM’ 공개