인공지능(AI) 신약 전문 아이젠사이언스(대표 강재우)는 고려대학교, 임페리얼 칼리지 런던(I.C.L.)과의 공동 연구를 통해 개발한 소형언어모델(sLM) ‘미어캣-7B’로 미국 의사면허시험(USMLE)을 통과하는 데 성공했다고 9일 밝혔다.
미어캣-7B는 복잡한 의료 문제를 해결하는 데 필요한 다단계 추론 능력을 갖춘 sLM 이다. 매개변수는 70억개에 불과, PC에서도 설치 및 활용할 수 있다.
강재우 아이젠사이언스 대표는 "미스트랄-7B에 USMLE 시험에 필요한 필수 교과서 18종을 학습시켰다"라고 설명했다.
미국 의사면허시험에서는 오픈 소스인 '메디트론(MediTron-7B)'이 역대 최고인 52점에 그쳐, 합격선인 60점을 넘기지 못했다.
하지만 미어캣-7B는 74점이라는 높은 점수로 통과했고, 7개의 의료 벤치마크 성능평가에서 'GPT-3.5'보다 평균 13%의 높은 성능을 보였다.
강재우 대표는 USMLE가 좋은 벤치마크인 이유로 "단답형이 아니라 복잡한 사고와 추론이 필요한 시험이기 때문"이라고 설명하며 "GPT-4로 추론문제의 풀이과정을 생성한 뒤에 교과서의 내용과 논리적인 풀이과정을 함께 학습시켜 성능을 높였다"라고 설명했다.
이번에 공개된 미어캣-7B는 의생명 특화 언어모델로 병원, 제약회사에서 문서작업 및 행정업무 처리를 도와줄 수 있다고 전했다.
또 "환자 개인정보에 민감한 병원과 연구결과 유출을 방지하려는 제약회사에는 구축형(온프레미스)로 제공될 것"이라고 설명했다.
이어 "미어캣-7B에 의사와 환자의 상담 데이터도 학습했다"라며 병원 내에서 "의사들의 의사결정 지원 시스템으로 활용하거나, 환자 차트 작성 및 의료·원무 행정업무에 활용할 수 있다"라고 밝혔다.
제약 회사에서는 ▲특허 분석 ▲임상 설계 ▲문서 작성 등에 활용할 수 있으며, 특히 "질병을 유발하는 원인 단백질을 파악하기 위한 가설설정 과정에서 유용하다"라고 강조했다.
실제 아이젠사이언스에서는 "내부에서 타겟 발굴 과정에서 미어캣이 대량의 의학 논문을 학습하고 사용자와 대화하면서 가설을 설정하는 과정을 지원하는 방식으로 활용 중"이라고 덧붙였다.
강재우 아이젠사이언스 대표는 “의생명 분야에서는 매일 3000편 이상의 연구 논문이 발표되는데, 이렇게 방대한 정보 속에서 신약 개발에 필요한 새로운 질병 표적 단백질을 식별하고 검증하는 작업은 매우 시간이 소모되는 일”이라고 말했다.
이에 "미어탯-7B를 파운데이션 모델로 공개해 새로운 약물 타깃을 발굴하는 과정의 효율성을 대폭 향상시킬 수 있을 것으로 기대한다"라며 "이번 성과를 바탕으로 의료 특화 LLM을 활용한 신규 사업모델도 준비 중”이라고 밝혔다.
박수빈 기자 sbin08@aitimes.com
