코드와 서버 오픈하고 학계 평가 거친 논문 나와야
기초과학 연구 위해 오픈 소스 공개는 의무
글로벌 생물학자들 트윗과 칼럼 쏟아져

최근 단백질 구조 예측 대회(CASP)에서 이례적인 성과를 보이면서 연일 화제가 되고 있는 딥마인드 알파폴드2에 대해 ‘섣부른 판단’이라는 학계 의견이 속속들이 나타나고 있다. 아직 코드와 논문이 공개되지 않았다는 사실이 큰 이유다.

코드가 공개되더라도 여전히 한계점이 많다는 의견도 나왔다. 알파폴드2도 결국 기존 단백질 구조 데이터를 통해 학습하는 만큼 데이터베이스(DB)에서 밝혀지지 않은 단백질 구조를 예측하는데 한계가 있다는 것이다. 예측불가능성을 완전히 해결하지 못하는 한 현장 적용에도 조심스러울 수밖에 없다는 주장이다.

아직 코드와 논문을 공개하지 않은 상황에서 ‘50년 묵은 문제를 해결했다’고 공식 뉴스룸에 홍보하는 것은 과잉 보도로 보인다는 지적도 나왔다. 향후 딥마인드가 코드를 오픈하지 않을 경우에는 학계 반발이 거셀 것으로 예상된다.

지난 11월 30일 딥마인드는 공식 블로그에서 제14차 CASP에서 압도적인 1위를 차지한 알파폴드2 성과를 공개했다.

[관련기사] 딥마인드 “50년 묵은 과제 해결했다”...알파폴드2로 코로나19 바이러스 단백질 구조 예측

딥마인드가 알파폴드2를 공개하자마자 생물학과 AI를 연구하는 과학자들 사이에서 파란이 일어났다. ‘내 생애 이런 일이 일어날 줄은 몰랐다’와 같은 반응도 있었지만, 상당수 연구자들은 아직 논문으로 입증되지 않았고 과정에 대한 코드도 공개되지 않은 상황에서는 ‘과신’이라며 우려를 표했다.

구조 생물학 연구자인 캘리포니아대 마이클 톰슨 교수는 최근 트위터에서 “딥마인드가 코드를 공유할 때까지 현장의 누구도 신경 쓰지 않을 것”이라고 강하게 비판했다. 다른 해외 생물학 연구자도 “알파폴드 소스 코드와 서버에 대해 우리는 아무것도 알 수 없는 상황이다. 깃허브에 (성과를 결정할) 세 번째 엔지니어링 리포지토리가 있을 것”이라고 말했다.

캘리포니아공대 컴퓨터 생물학 교수인 리오 패처는 “단백질 폴딩 문제는 아직 제대로 정의, 해결된 문제라고 할 수 없다”고 트위터에서 강조했다. 다른 의학 전문가도 “소스 코드를 공개하고 모든 학술 커뮤니티에서 알파폴드2 서버를 사용할 수 있게 되면 진정한 게임 체인저가 될 것”이라고 말했다.

구조 생물학을 연구하는 데이비드 브릭스 박사도 “공개되어 모든 사람이 사용할 수 있을 때까지 (알파폴드2는) 연구계에서 아무것도 바꿀 수 없다. 연구자들이 실제로 사용하고 계속해서 문제사항을 알려 업데이트가 이뤄진다면 우리는 그들(딥마인드 연구팀)이 한 일의 가치를 인정할 것”이라고 지적했다.

데이비드 브릭스 구조 생물학자 트윗 내용
데이비드 브릭스 구조 생물학자 트윗 내용

이와 같이 아직 소스 코드와 논문을 발표하지 않았고, 생물학 전문가들의 피드백도 거의 받지 않은 상황에서 딥마인드가 알파폴드2 성과를 강조한 것은 ‘과잉 선전’이라는 의견이다.

생물학 연구자인 롤랜드 던브랙은 트위터에서 “찝찝한 사실은 구글이 뉴스 미디어를 모두 정렬해놓고 CASP14 미팅 첫날 기사가 나갈 수 있게 준비했다는 것이다. 과학자들은 누구도 알지 못한 상황에서 말이다. 구글은 어떻게 이것을 해냈는지에 대해 여전히 ‘내부 논의중’이다”라고 크게 비판했다.

딥마인드가 홍보한 내용을 그대로 보도한 미디어에 대해서도 비판의 목소리가 나왔다. 브릭스 박사는 “현재 보도된 기사들 다수가 2년은 동떨어진 내용을 강조하고 있다. 모든 매체에서 ‘그들이 해냈다’, ‘구조생물학 문제를 해결했다’고만 이야기하고 있다”고 꼬집었다.

패처 캘리포니아공대 교수는 “구글이 해당 내용을 과장했다는 것에 대해 나는 신경쓰지 않는다. 그보다 많은 전산 생물학자들이 ‘단백질 폴딩 문제가 해결됐다!’고 말하는 것이 걱정된다”고 말했다.

다른 생물학 연구자도 “단백질 구조 예측 문제와 단백질 폴딩 문제가 완전히 동일하지 않다는 사실을 상기시켜야 한다”고 강조했다.

 

◆코드 미오픈 시 강력한 학계 반발 예상 “연구 윤리 어긋난다”

딥마인드가 행여 코드를 오픈소스 형태로 공개하지 않을 경우에는 학자들 반발이 거셀 것으로 예상된다. 한 해외 생물학 연구자는 “딥마인드는 당연히 소스 코드를 무료로 제공해야 한다. 공공자금을 지원받는 기본 연구 의무와 중요성을 의심하는 사람이 없어야 한다”고 강조했다.

다른 연구자는 네이처에서 지난 10월 14일 게재한 ‘인공지능의 투명성과 재현성’ 기사를 인용하기도 했다. 이 연구자는 해당 기사를 제시하며 “딥마인드는 데이터를 처리하고 모델을 훈련, 검증하는 데 사용한 코드를 공유했나?”라고 꼬집었다.

어떤 연구자는 “조만간 딥마인드는 비 오픈 소스 프로그램을 제공하면서 과학자들이 자유롭게 공유하는 연구 데이터를 사용해 수익을 창출하려 할 것”이라고 비꼬았다.

브릭스 구조 생물학 박사는 “딥마인드가 생물학에 관심이 있다면 오픈소스화 할 것이고 좋은 CPU, GPU 팜에 연결된 서버를 제공할 것이다. 그렇게 되면 우리는 기존에 해결하지 못했던 문제 시퀀스를 제출할 수 있을 것”이라고 전했다.

생물학 연구자들이 이처럼 오픈 소스화를 중요시하는 이유는 기존 학계에 연구 데이터를 공유하는 문화가 조성되어 있기 때문이다. 딥마인드 알파폴드2가 영향을 미치는 분야가 기초과학인 만큼 공공성을 고려해야 한다는 의미다.

연구자들은 최근 eLife가 공식화한 오픈소스 관련 규칙을 예시로 들었다. eLife에는 12월 1일 동료 검토 : ‘게시 후 검토’ 모델의 게시 구현(Peer Review: Implementing a "publish, then review" model of publishing)이라는 연구 논문을 홈페이지에 발표했다.

eLife가 발표한 향후 피어 리뷰 방침
eLife가 발표한 향후 피어 리뷰 방침

해당 논문에 따르면 eLife는 2021년 7월 프리 프린트 형태로 게시된 원고만 게시 여부에 대해 검토하고 프리 프린트와 함께 게시될 공개 리뷰를 만드는데 집중하는 편집 프로세스를 도입할 계획이다.

어떤 논문을 출판해야 하는지 결정하지 않고 편집 과정에 초점을 맞춘다는 방침이다. 관련 게시 결정에 관계없이 모든 리뷰는 신속한 게시한다. 이를 통해 검토 중에 발생할 수 있는 문제를 영구적으로 해결할 수 없는 상황을 바꾼다는 것이다. 논문이 받아들여질 때까지 저널에서 저널로 튀는 ‘어리석은 과정’도 없앨 수 있다는 설명이다.

해당 연구를 발표한 연구진은 “논문을 한 번만 검토하거나 한 기관만 검토할 이유가 없다. 검토 과정은 계속 진행되어야 하며 여러 목소리를 포함해야 한다. 저널이나 다른 단체가 선정한 사람뿐만 아니라 작품에 대해 유용한 말을 하는 사람이 리뷰를 작성할 수 있어야 한다”고 전했다.

 

◆학습에 사용한 기존 연구 DB·예측불가능성이 알파폴드2 한계점

추후 코드를 공개한다 하더라도 딥마인드 알파폴드2에는 본질적인 한계가 있을 것으로 예상된다. 질병을 모방하는 AI 시스템도 결국 기존 단백질 구조 데이터에서 단백질 폴딩 규칙을 학습하기 때문이다. 기존 데이터베이스에서 해명된 정도가 적은 단백질 구조를 예측하는 데는 한계와 위험성이 있다는 주장이다. 예측불가능성도 AI 시스템을 인간의 목숨을 다루는 연구 현장에 활용하기 어렵게 한다.

브릭스 구조 생물학 박사는 트위터에서 “과소평가하려는 건 아니지만, 이번에 딥마인드가 공개한 성과는 이미 지난 CASP 결과에서도 주장된 바 있다. 특히 주의해야 할 점은 작은 단백질과 도메인에서만 분리 작동한다는 것이다. 사실 많은 구조 생물학자들의 연구와는 다르다. 하지만 알려지지 않은 단백질 폴드를 밝혀내는 데 집중하는 연구자들에게는 유용할 것”이라고 말했다.

맥스 리틀 버밍엄대 부교수는 “CASP에서 사용한 데이터베이스 문제 맥락 내에서만 잠재력을 보여줬다고 할 수 있다. 실제 살아있는 유기체의 세계에서 발견되는 훨씬 더 풍부하고 다양한 단백질 배열에 직면했을 때 알파폴드2가 얼마나 잘 작동할지 확신할 수 없는 것”이라고 비판했다.

과학 미디어 ‘과학 중개 의학(Science Translational Medicine)’사이언스의 발행인인 데렉 로우는 해당 매체에서 알파폴드2 위험성과 한계를 비판하는 칼럼을 게재했다.

로우 발행인은 “일반적으로 모델 개발은 때때로 닭과 계란에 대한 질문으로 이어진다. 질병을 모방하기 위한 좋은 모델을 만들기 전에 질병에 대해 더 많이 알아야하기 때문이다”라고 강조했다.

이어 “기존에도 인간 연구자의 실험으로 만든 거의 모든 화합물은 실제로 다르게 작동했다. 질병에 대한 우리의 근본적인 가설이 틀렸기 때문이다”라며 “우리는 아직 알츠하이머병 원인, 패혈성 쇼크를 중단하는 가장 좋은 방법, 파킨슨병의 근본 원인, 만성 통증에 대처하기 위한 최선의 목표, 주요 우울증의 실제 생화학적 원인 등에 대해 알지 못하는 상황”이라고 말했다.

그에 따르면 알파폴드2의 예측 결과를 인간을 대상으로 한 임상2상에서 사용할 시 특히 상당한 위험을 수반할 것으로 예상된다.

데렉 로우 발행인이 1일 게재한 '거대한 문제' 칼럼
데렉 로우 발행인이 1일 게재한 '거대한 문제' 칼럼

스티븐 커리 DORA 의장도 자신의 블로그에 딥마인드 알파폴드2 한계를 비판하는 게시글을 올렸다. 커리 의장은 “우리는 이 AI 도구(알파폴드2)를 약물 발견에 사용할 수 있는 시점에 있지 않다. 딥마인드 발표에 따르면 알파폴드2 예측 결과의 경우 예측과 실제 구조 사이 원자 위치에서 평균 또는 제곱근 차이는 1.6Å (0.16nm)다. 이 숫자가 어떻게 계산된 건지에 대해서는 딥마인드 발표에서 알 수 없다”고 지적했다.

네이처에서도 알파폴드2가 다중 단백질 복합체에 대한 구성 단백질 예측을 아직 안정적으로 처리할 수 없다고 보도한 바 있다. 커리 의장은 “이들은 리보솜, 이온 채널, 중합 효소와 같이 가장 흥미로운 생물학적 개체 중 하나”라고 강조했다.

칼럼 말미에서 커리 의장은 “최근 언론에서의 과장된 주장에 대응하기 위해 주의를 기울여야 한다. 보도 자료로 과학을 판단해서는 안 된다. 하지만 알파폴드2가 굉장한 성과를 낸 것은 사실”이라며 “이러한 발전은 업계 연구자들 평가를 포함한 동료 심사 논문을 발표하고 학계 모든 사람들이 공개적으로 사용할 수 있게 되면 훨씬 분명해질 것”이라고 전했다.

 

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]"축하한다" 테슬라 일론 머스크 등 AI & IT업계 딥마인드 알파폴드2 칭찬 일색

[관련기사]딥마인드 Lab2D, 강화 학습 연구 효율 높인다

키워드 관련기사
  • 구글 딥마인드 '페르미넷' 양자역학의 세계로
  • [글로벌 Lab 젊은 과학자] 알파고를 넘어 새로운 강화학습 세계를 연다...딥마인드 오준혁 박사
  • 딥마인드, GNN 기술로 구글지도 도착 시간 정확도 개선