코로나19 원인 바이러스 단백질 구조 예측 성공
암, 당뇨병, 알츠하이머성 치매 진단·치료까지 활용 기대
국내외 생물학자들 들썩

딥마인드 알파폴드2의 단백질 구조 예측 성과로 국내외 생물학계가 크게 들썩이고 있다. 딥마인드는 11월 30일 알파폴드2가 단백질 구조 예측 능력 평가 대회인 CASP서 압도적인 성능을 증명했다고 밝혔다. 제14차 CASP에서 알파폴드2는 평균 92.4점, 2등과의 격차는 최대 25점을 기록하며 여타 경쟁자들과 비교불가한 성과를 보였다.

제14차 CASP서 딥마인드 알파폴드2가 보인 성과
제14차 CASP서 딥마인드 알파폴드2가 보인 성과

AI로 단백질 구조 예측 분야에서 예측능력이 크게 도약하면서 코로나19와 같은 신종 감염병 대응도 보다 용이해질 것으로 기대된다. 딥마인드는 공식 블로그에서 “올해 초 우리 회사는 코로나19 원인인 SARS-CoV-2 바이러스의 다양한 단백질 구조를 예측했다”고 밝혔다. 이번 CASP에서는 소위 미스터리 영역에 있던 코로나 바이러스 단백질 일종인 ORF8 구조를 예측하는데 성공했다.

신종 감염병 대응 이외에 암, 당뇨병과 같은 발병률이 높은 질병 뿐만 아니라 진단과 치료가 어려운 알츠하이머성 치매, 파킨슨병에 대해서도 효과를 보일 것으로 크게 주목받고 있다. 단백질 포켓(pocket)과 틈(crevice)에 맞는 약물을 고안해 신약 개발에서도 활약할 수 있다.

알파폴드2는 딥러닝과 텐션 알고리즘 기술을 결합해 예측 능력을 크게 개선했다. 텐션 알고리즘은 직소퍼즐을 맞추는 방법을 모방한 방식으로, 아미노산 클러스터와 같은 작은 부분들을 맞춘 다음 이를 결합해 더 큰 부분들을 맞춘다.

이를 도입한 결과 알파폴드2는 128개 프로세서만으로 구성된 컴퓨터 네트워크를 사용해 기존에 밝혀진 모든 단백질 구조 17만개를 학습할 수 있었다. 질병 파악에 중요하지만 기존 기술로는 알아낼 수 없었던 세포막에 끼여 있는 단백질 구조를 밝혀내기도 했다.

알파폴드2 성과가 발표되자 생물학 혹은 AI를 연구하는 많은 국내외 석학들이 연일 뜨거운 반응을 보이고 있다. 콜롬비아대에서 생체분자 머신러닝을 연구하는 모하메드 알퀴라이시 교수도 자신의 트위터 페이지에서 “이것으로 단백질 구조 예측 연구는 결론이 났다. 부수적인 해결 과제는 있지만 핵심 문제는 해결된 것으로 보인다”고 밝혔다.

재닛 손튼 유럽생물정보학연구소장은 사이언스와의 인터뷰에서 “마인드가 달성한 업적은 구조생물학과 단백질 연구 미래를 확 바꿀 것이다”라고 말했다. CASP를 공동 창설한 메릴랜드대 존 몰트 교수 또한 “살아생전에 이런 일이 벌어질 줄은 미처 생각하지 못했다”고 강조했다.

독일 막스 플랑크연구소에서 단백질 구조를 연구 중인 안드레이 루파스 박사는 “10년 동안 특정 단백질 구조를 알아내지 못했는데 알파폴드2는 반시간 만에 밝혀냈다”고 말했다. 그는 “알파폴드2는 게임체인저라고 할 수 있다. 앞으로 단백질 구조 분석은 컴퓨터에 전적으로 의존하게 될 것”이라고 강조했다.

인기 딥러닝 도서 ‘모두의 딥러닝’ 저자인 조태호 인디아나의대 교수도 알파폴드2 성과를 크게 주목했다. 조 교수는 “1위는 이미 예상한 바이지만 2위권 그룹과의 차이가 커도 너무 크다. 딥러닝을 쓰냐 안쓰냐의 문제가 아니라, 이제 어떻게 잘 쓰는가의 문제인 것 같다”고 말했다.

2일 브릭(생물학연구정보센터)에 관련 기사를 낸 양병찬 약사 겸 생물학 칼럼니스트는 “생물학계 가장 야심찬 도전으로 꼽히는 ‘아미노산에서 단백질 3D 구조 예측하기’를 AI로 독파했다. 과학계에서 가장 까다로운 문제 하나가 해결된 것”이라고 전했다.

국내 모 딥러닝 연구자도 “알파폴드2는 인풋으로 시퀀스 정보를 주면 아웃풋으로 단백질 구조를 제시하는 단순한 모델이라는 데서 특장점을 가진다. 잘 작동하기만 하면 비싼 현미경과 골치아픈 최적화(optimization) 문제 없이 단백질 구조를 예측할 수 있는 것”이라고 설명했다.
 

◆딥러닝과 텐션 알고리즘 결합한 알파폴드2, CSAP서 압도적 1위

알파폴드2 예측과 인간 연구진 연구 결과를 비교한 폴딩 단백질 이미지
알파폴드2 예측과 인간 연구진 연구 결과를 비교한 폴딩 단백질 이미지

딥마인드가 단백질 구조 분석 AI 기반 모델을 선보인 것은 이번이 처음이 아니다. 알파폴드2 전에는 알파폴드가 있었다. 딥마인드는 2018년 알파폴드로 CASP에 처음 출전했다. 해당 대회에서 알파폴드는 모든 테스트에서 경쟁자들보다 15% 높은 성적을 보여 압도적인 1위를 기록했다.

하지만 딥마인드 연구진은 실제 연구 활용을 위해서는 알파폴드 예측력을 더욱 개선해야 한다고 판단했다. 알파폴드 개발을 지휘한 존 점퍼는 사이언스와의 인터뷰에서 “당시 알파폴드 예측은 조잡하고 유용성이 떨어졌다. 우리 연구팀은 최초 알파폴드의 생물학적 적합성(biological relevance)이 얼마나 허접한지 잘 알고 있었다”고 밝혔다.

알파폴드 예측능력 향상을 위해 연구진은 딥러닝과 텐션 알고리즘을 결합했고 알파폴드2라는 성공적인 결과를 얻었다. 금년 열린 제14회 CASP에서 알파폴드2는 GDT 점수로 92.4점(중앙값)을 받았다. 가장 까다로운 테스트에서도 알파폴드2는 87점을 얻었고 2등팀 점수에 비해 25점을 앞서는 성과를 거뒀다.

질병 연구를 위해 필수적이지만 기존 단백질 구조 해석 기술인 엑스레이결정술로는 수행할 수 없었던 세포막 사이 단백질 구조도 해명할 수 있었다.

이와 같은 알파폴드2 맹활약에 CASP 조직위원회는 부정행위를 의심하기도 했다. 조직위원회에 참여했던 루파스 박사는 사이언스에 “특별한 문제를 하나 냈는데, 특정 고균(archaea)의 막단백질 구조를 예측하는 것이었다. 내가 이끄는 연구팀은 지난 10년 동안 (교과서에 나오는) 모든 수단을 동원해 그 단백질의 엑스선 결정구조를 알아내려고 했지만 허사였다”고 말했다.

하지만 알파폴드는 어려움 없이 '3개 부분으로 구성된, 한가운데에 두 개의 기다란 나선형 팔(helical arm)이 있는 단백질'을 그려낸 것으로 전해졌다. 루파스 박사는 “나와 동료들은 이 모델 덕분에 엑스선 데이터를 이해했고, 30분 후에는 실험결과와 알파폴드가 예측한 구조가 일치한다는 결론에 도달했다. 그건 거의 완벽했다”고 설명했다. 그는 이어 “부정행위를 하지 않은 게 분명하다. 그러나 문제를 어떻게 풀었는지는 모르겠다”고 말했다.

알파폴드2의 단백질 기본 구조 예측 작업은 몇 년, 몇 달이 아닌 며칠만에 가능하다. 딥마인드는 공식블로그에서 “알파폴드2는 단백질 기본 구조를 예측하고 모양을 결정하는 방법을 며칠 내에 배울 수 있다. 또한 내부 신뢰 측정을 사용해 각 단백질 구조의 어느 부분이 신뢰할 수 있는지 자체 평가할 수 있다”고 밝혔다.

학습 데이터로는 오픈 소스 DB인 단백질 데이터 뱅크(Protein Data Bank) 내 현존하는 모든 단백질 구조 데이터를 사용했다. 대략 100개에서 200개 그래픽 카드 분량에 이르는 컴퓨팅 리소스를 처리하기 위해 클라우드를 통해 사용 가능한 특수 목적 AI 가속기 칩인 구글 3세대 텐서 처리 장치(TPU) 128개를 사용했다.
 

◆코로나19 연구에 이미 성과 확인...암·당뇨·알츠하이머에도 활용 기대

딥마인드 알파폴드2 능력은 코로나19와 같은 신종 감염병 연구에서 이미 가능성을 입증했다. 딥마인드는 “올해 초 우리 회사는 코로나19 원인 바이러스인 SARS-CoV-2와 미스터리 영역에 있었던 ORF3a 구조를 예측했다. 최근 CASP에서는 코로나 바이러스 단백질 일종인 ORF8의 구조를 예측하는데 성공했다”고 밝혔다.

이어 딥마인드는 “알파폴드2가 추후 더 다듬어진다면 전염병 역학 연구 이외에도 단백질 폴딩 분야에서 이전에 다루기 힘든 문제에 적용할 수 있을 것”이라고 강조했다. 현재 과학계에 밝혀진 바 없는 수억 개의 단백질을 탐색하는 데 사용할 수 있다는 의미다.

알파폴드2가 이번 도약으로 핵심 과제를 해결했지만 아직 개선점도 있다는 것이 학계 의견이다. 사이언스는 “알파폴드는 이번 대회에서 하나의 단백질에 고전을 면치 못했다. 52개의 작은 분절(segment)들이 반복되는 아말감으로 각각의 분절들이 조립될 때 서로의 위치를 왜곡시켰다”고 밝혔다.

이 매체에 따르면 딥마인드 향후 목표는 함께 협력해 세포 안에서 핵심 기능을 수행하는 단백질 복합체 구조를 해명하도록 알파폴드를 훈련시키는 것이다.

모하메드 알퀴라이시 교수는 “이번 성과는 전체 단백질이 아닌 단일 도메인에 대한 것이며 몇 가지 잘못된 예측 결과도 있었다”며 “코너 케이스(환경변수 또는 조건에 따라 발생하는 문제)는 남아 있는 상황”이라고 말했다.

모 딥러닝 연구자도 “알파폴드2가 풀었다고 한 문제들은 모두 비교적 단순한 단백질들에 국한되어있다. 기존 Cryo-EM 방식에 비해 여러 단백질에 범용적으로 사용할 수 있을지는 아직 모르는 것”이라고 지적했다.

그는 “학습 모델인 만큼 언제나 다른 방법들과 비교를 통해 여러 번 증명을 거쳐야 한다. 물론 매우 대단한 도약이긴 하지만 아직은 더 지켜볼 필요가 있다”고 전했다.

 

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]딥마인드 Lab2D, 강화 학습 연구 효율 높인다

[관련기사]구글 딥마인드 '페르미넷' 양자역학의 세계로

키워드 관련기사
  • 딥마인드, GNN 기술로 구글지도 도착 시간 정확도 개선
  • “뇌와 컴퓨터 연결한다”…일론 머스크, 뇌에 이식할 두뇌칩 '뉴럴링크' 개발
  • 일론 머스크 "딥마인드가 내 최고 관심사"