(사진=셔터스톡).
(사진=셔터스톡).

에스토니아 타르투대 연구진이 생성적 적대 신경망(GAN)으로 인공게놈을 만드는 머신러닝 시스템을 개발했다. 인공게놈은 실제 인간 유전체와 똑같은 구조다.

TNW는 8일(현지시간) 이를 보도하며 컴퓨터로 만들어진 이 가짜게놈이 향후 DNA 연구에 중요한 역할을 할 것이라고 전망했다.

GAN은 지난 10여년 간 다양한 영역에서 효과적으로 사용돼왔다. 그러나 인간 유전자 데이터와 유사한 개념을 적용해 그 구조를 자동으로 학습하는 인공게놈이 개발된 것은 이번이 처음이다.

인공 게놈(AG) 생성은 1000 게놈 프로젝트(Genomes Project Consortium, 2015)의 2,504개 게놈과 타르투 대학의 에스토니아 바이오뱅크에 등재된 1,000개 개인 게놈을 사용했다. 처음 학습시킨 4개의 인공신경망 중 실제와 같은 게놈을 생성한 GAN과 제한 볼츠만 머신러닝(restricted Boltzmann machines, RBM)이 연구에 선택돼 아프리카, 유럽, 아시아 게놈의 특징을 구별한 게놈을 생성했다. 실제 게놈과 100% 일치하는 게놈은 없었다.  

타르투 대학 유전체학 연구소의 연구에 따르면 파라미터 조정을 하지 않고 원(原)게놈의 정보만으로 인공 게놈을 생성할 수 있다. 연구소는 “과거 유전체 연구에 활용되던 병합 시뮬레이션(Coalescent simulation)의 단점인 파라미터 조정과 사전 정보 학습 필요를 보완했다”고 주장했다.

연구진은 GAN과 제한된 볼츠만 머신(RBM) 기술로 머신러닝 시스템을 훈련시켰다. RBM은 2006년 제프리 힌튼 토론토대 교수가 발표한 인공신경망(ANN) 학습방법 중 하나다. 기존 ANN이 가지고 있던 과적합 문제를 상당부분 해결하는 기법으로 큰 주목을 받았으며, 이를 시작으로 딥러닝 연구에 다시금 불을 지폈다는 평가를 받고 있다.

논문초록에서 연구진은 “우리는 GAN과 RBM을 훈련해 실제 게놈 데이터세트가 갖고 있는 복잡한 분포를 학습하는 동시에 개인정보 유출·손실 걱정이 없는 고품질 인공게놈을 생성할 수 있음을 입증했다”고 밝히고 있다. 또 “유전학 연구에서 완벽한 대안책을 마련하는 기틀을 다졌다”고 자평했다.

각 민족 특성상 유전체 정보는 다를 수 있다. 최근 울산과학기술원(UNIST)은 실험을 통해 한국인 유전체가 표준게놈과 비교해 약 4000만개가 다르다는 것을 입증하기도 했다. 타르투대 연구진이 개발한 GAN 기반 인공게놈은 아프리카·유럽·아시아 등 인종과 지역별로 다른 유전체까지 완벽히 복사한 것으로 알려졌다. 어찌보면 여러 인종을 참고해 제작한 실제 표준게놈보다 인공게놈이 더 세밀할 것이라는 기대를 자아내는 부분이다.

인공게놈은 하플로타입 등 다양한 분자 진화 집단도 정확히 표기한다. 하플로타입이란 부계지표인 Y염색체와 모계 지표인 mt-DNA의 DNA 염기서열 중 복제 오류로 생겨난 유전자 집단을 일컫는다. 이외에도 RBM은 데이터 관련 인코딩을 제공할 수 있어 참조 데이터 세트와 기능에 대한 추가 탐색도 가능하다.

연구진은 “인공게놈은 기존 게놈을 토대로 인간 개인 데이터베이스에 접근이 쉽다는 장점이 있다”며 “개인 프라이버시 침해에 대한 우려로 감소추세를 보이고 있는 최근 유전학 연구에 도움이 될 것”이라고 자평했다.

그러나 일각에서는 ‘복제품’에 대한 시선이 따갑다. 인간 고유의 유전 정보를 복사해 생성된 것에 지나지 않는다는 것이다. 연구진 주장대로 개인정보 침해에서 자유로운 완벽한 대안책이 될 지, 윤리라는 벽에 부딪혀 AI를 활용한 복제 생성에 그치고 말지는 향후 학계가 풀어야 할 숙제로 보인다.

 

AI타임스 박혜섭 기자 phs@aitimes.com

[관련기사] MS, GAN과 '연합학습'으로 환자 개인정보보호 의료 진단 방법론 개발

[관련기사] MIT, 단 1mm 크기 선충류 모방 '액체신경망' 개발

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지