약물 후보 분자 발굴에 속도를 낼 수 있는 인공지능(AI) 모델이 개발됐다. 카이스트는 김우연 화학과 교수 연구팀이 물리 기반 3차원 그래프 심층 신경망을 이용해 일반화 성능을 높인 단백질-리간드 상호작용 예측 모델을 개발했다고 17일 밝혔다. 이 모델은 벤치마크에서 기존 방법보다 2배 향상된 스크리닝(가상탐색) 성공률을 달성했다는 설명이다.
리간드는 수용체와 같은 큰 생체 분자에 특이적으로 결합하는 물질을 뜻한다. 의약품의 개발 등에 중요한 역할을 한다. 약물 후보 분자를 발굴하기 위해선 타깃 단백질과 강하게 결합하는 리간드를 찾는 것이 중요하다. 하지만 유효물질을 찾기 위해 수백만에서 수천만 개의 무작위 리간드 라이브러리를 대상으로 실험 전수 조사를 수행하는 것은 많은 시간과 비용이 들었다.
이 때문에 연구진들은 예측 AI 모델을 개발해 시간과 비용을 줄이는 방안을 연구해왔다. 하지만 기존의 상호작용 예측 AI 모델들은 학습에 사용한 구조에 대해서는 높은 예측 성능을 보여줬지만 새로운 단백질 구조에 대해서는 낮은 성능을 보이는 과적합 문제가 있었다.
카이스트 교수이자 AI 신약개발 최고경영자(CEO)인 김우연 교수는 이 과적합 문제를 해결해 다양한 단백질에 대해 고른 성능을 보여주는 예측 모델을 개발하기 위해 연구를 진행했다. 김 교수 연구팀은 물리화학적 아이디어들을 딥러닝 모델에 적용해 모델의 복잡도를 줄임과 동시에 물리 시뮬레이션을 통해 부족한 데이터를 보강함으로써 과적합 문제를 해결하고자 했다.
연구팀은 단백질 원자와 리간드 원자 사이의 거리에 따른 반데르발스 힘, 수소 결합력 등을 물리 화학적 방정식으로 모델링하고 파라미터(매개변수)를 딥러닝으로 예측하는 연구를 진행했다. 그 결과 물리 법칙을 만족하는 예측 결과가 나왔다고 설명했다.
연구팀은 이번 연구에 부족한 실험 데이터를 보강하기 위해 불안정한 단백질-리간드 구조로 이루어진 수십만 개의 인공 데이터를 생성해 학습에 활용했다고 밝혔다. 이러한 노력 결과 생성된 구조에 비해 실제 구조를 안정적으로 예측하도록 모델을 학습할 수 있었다고 전했다.
개발한 모델의 성능은 'CASF-2016 벤치마크'에서 평가했다. 이 벤치마크는 다양한 단백질-리간드 구조들 사이에서 실험적으로 판명된 결정 구조에 근접한 구조를 찾는 도킹과 상대적으로 결합력이 큰 단백질-리간드 쌍을 찾는 스크리닝 등 실제 약물을 개발하는 과정에 필수적인 과제를 포함하고 있다. 카이스트 측은 "검증 테스트 결과 기존 최고 성능보다 약 2배 높은 수치를 기록했다"고 밝혔다.
공동 제1 저자로 참여한 KAIST 화학과 문석현, 정원호, 양수정(현재 MIT 박사과정) 박사과정 학생들은 "데이터가 적은 화학 및 바이오 분야에서 일반화 문제는 항상 중요한 문제로 강조돼왔다ˮ며 "이번 연구에서 사용한 물리 기반 딥러닝 방법론은 단백질-리간드 간 상호작용 예측 뿐 아니라 다양한 물리 문제에 적용될 수 있을 것ˮ이라고 말했다.
이번 연구는 한국연구재단의 지원을 받아 수행됐다. 연구 성과는 국제 학술지 '케이컬 사이언스(Chemical Science)' 2022년 4월 13호에 표지 논문 및 '금주의 논문(Pick of the Week)'으로 선정됐다.
AI타임스 김동원 기자 goodtuna@aitimes.com
