기하학적 추론 기능을 탑재한 인공지능(AI)을 활용하면 기존의 컴퓨팅 모델과 비교해 수천 배 빠르게 약물 후보 분자를 찾을 수 있는 것으로 나타났다.
미 과학 전문 매체 MIT뉴스는 13일 ICML(머신러닝 국제컨퍼런스)에서 발표할 논문에서 MIT 연구자들이 현존하는 가장 빠른 컴퓨팅 분자 도킹 모델 중 하나인 퀵비나2-W(QuickVina2-W)보다 1200배 빠른 이퀴바인드(EquiBind)라는 기하학적 딥러닝 모델을 개발해 약물 유사 분자를 단백질에 성공적으로 결합했다고 보도했다.
알려진 우주 전체에는 무한한 수의 분자가 있다. 그러나 생명을 구하는 약물 치료를 위해 쓰일 수 있는 약물 유사 후보 분자의 비율은 얼마나 될까? 수백만? 수십억? 수조? 정답은 10의 60승이다. 이 엄청난 수치는 기존 약물 디자인 모델이 계산할 수 있는 것보다 훨씬 더 크기 때문에 코로나19와 같이 빠르게 확산되는 질병을 퇴치할 약물의 개발 과정을 지연시킨다.
이퀴바인드(EquiBind)는 이전 버전인 이퀴독(EquiDock)에 기반한다. 이는 전 MIT 컴퓨터과학 및 인공지능 연구소의 고 옥타비안 유겐 가네아 및 EquiBind 논문 공동 저자인 의료 머신러닝클리닉의 자멜 압둘 라티프가 개발한 기술을 사용해 두 개의 단백질을 결합하는 기술을 전문적으로 다룬다.
약물 개발 전, 연구자는 약물 발견 과정에서 특정 단백질 표적에 적절하게 결합할 수 있는 유망 약물 유사 분자를 찾아야 한다. 단백질에 성공적으로 도킹한 후 리간드로 알려진 결합 약물은 단백질의 작동을 멈출 수 있다. 이러한 현상이 박테리아의 필수 단백질에서 일어나면 박테리아를 죽이면서 인체를 방어할 수 있게 된다.
약물 발견의 과정은 많은 비용이 든다. 수십억 달러를 투입해 미국 식품의약국(FDA)의 최종 승인을 받기까지 10년이 넘는 개발 및 테스트 과정을 거쳐야 한다. 모든 약물의 90%는 효과가 없거나 부작용이 너무 많아 일단 임상에서 실패한다. 제약회사들이 이러한 실패에 따른 비용을 회복하기 위해 개발에 성공한 약의 가격을 인상하기도 한다.
유망 약물 후보 분자를 찾기 위한 현재의 컴퓨팅 과정에서 대부분 최첨단 컴퓨팅 모델은 리간드와 단백질 사이에 최상의 ‘적합성’을 얻을 목적으로 유력 후보 샘플링에 의존해 점수 산정, 등급 지정 및 미세 조정과 같은 방법을 사용한다.
MIT 전기공학 및 컴퓨터공학부 석사과정 학생인 한스 스테르크는 이 연구 논문의 제1 저자로 기존의 일반적인 리간드-단백질 결합 방법을 ‘다양한 열쇠구멍에 열쇠를 맞추려는 시도’에 비유한다. 가장 적합한 모델을 선택하기 전에 시간이 많이 걸리는 각각의 ‘적합’에 대한 점수를 매긴다. 반면에 EquiBind는 단백질의 타겟 포켓에 대한 사전 지식 없이도 한 단계로 정확한 열쇠의 위치를 바로 예측한다. 이를 ‘깜깜이(브라인드) 도킹’이라고 한다.
단백질에서 리간드의 적합한 위치를 찾기 위해 여러 번 시도해야 하는 대부분의 모델과는 달리 EquiBind는 이미 기하학적 추론 기능을 탑재하고 있어, 분자의 기본적인 물리적 특성을 학습해 보이지 않는 새로운 데이터를 만날 때 추론을 성공적으로 할 수 있도록 한다.
이러한 연구 결과는 릴레이 테라퓨틱스사의 최고데이터책임자 펫 월터스를 비롯한 업계 전문가들의 주목을 받았다. 월터스는 폐암, 백혈병, 위장관간질종양에 이미 사용되는 약물과 단백질에 대해 연구진이 모델을 시도해볼 것을 제안했다. 대부분의 기존 도킹 방법은 이러한 단백질에 작용한 리간드를 성공적으로 결합하지 못한 반면 EquiBind는 성공했다.
월터스 책임자는 “EquiBind는 자세 예측 및 결합 위치 확인을 통합해 도킹 문제에 대한 고유한 솔루션을 제공한다”며 “공개적으로 사용 가능한 수천 개의 결정 구조물 정보를 활용하는 이 접근 방식은 새로운 방식으로 현장에 영향을 미칠 잠재력이 있다”고 밝혔다.
스테르크는 “다른 모든 방법이 완전히 틀렸거나 일부만 제대로 맞춘 가운데, EquiBind는 이를 포켓에 제대로 결합시키는 결과가 나와 놀랐고 매우 기뻤다”고 설명했다.
AI타임스 이한선 객원 기자 griffin12@gmail.com
