광주과학기술원(GIST, 총장 임기철)은 AI대학원 이현주 교수 연구팀이 서울대병원 박성혜 교수 연구팀과 함께 암세포의 전장 유전체 정보를 활용해 3차원 암 게놈을 예측하는 인공지능(AI) 모델 ‘인포HiC(InfoHiC)’를 개발했다고 밝혔다.
전장 유전체 정보란 개별 개체의 전체 DNA의 염기 서열을 제공하는 데이터를 말한다. 기존 방법론에서 사전에 정의된 인간 참조 유전체 서열을 사용한 것과 달리, 연구팀은 암세포의 전장 유전체 데이터를 사용해 암세포 단백질 접힘 구조를 예측했다는 설명이다.
연구진은 암세포에서는 3차원 게놈의 변화가 유전자 발현형의 조절에 중요한 역할을 하고 암세포의 염색체에서는 복잡한 구조 변이가 빈번하게 일어난다고 전했다.
인포HiC는 이런 복잡한 구조 변이에 의한 새로운 유전자 발현 패턴을 더 높은 정확도로 예측할 수 있다고 소개했다.
이를 통해 비암호화 DNA 영역의 구조 변이가 암의 발생과 진행에 미치는 영향을 종전보다 저비용으로 정확히 밝혀낼 수 있을 뿐만 아니라 암 환자에게서 직접 관찰할 수 있는 기술을 확보했다고 밝혔다.
연구팀은 AI모델에 암세포의 염색체에 연결되어 있는 유전적 마커들의 집합인 하플로타입의 유전자 절편을 생성하고 반영해 3차원 게놈을 예측했다.
기존의 인간 참조 유전체에 기반한 모델과 비교하여 연구팀이 개발한 인포HiC는 구조 변이가 있는 암세포의 3D 게놈 예측 성능이 크게 향상됐다고 설명했다.
수모세포종 환자 A의 전장 유전체 데이터에 인포HiC를 적용한 결과, 비정상적인 유전자 발현을 유발하는 인핸서 납치 현상을 예측해 유전자 발현 조절 이상을 확인할 수 있었다는 말이다.
또 종양 유전자의 암호화 DNA 영역에서 돌연변이가 발견되지 않아 치료 타깃 유전자 선정이 힘든 환자 B를 대상으로 인포HiC를 활용해 3D 게놈 변이에 따른 유전자 발현 이상을 확인했는데, 이와 같은 방식으로 인포HiC가 추후 환자 맞춤형 치료 추천에 기여할 것으로 기대된다고 말했다.
연구팀은 모델 학습에 사용되지 않은 유방암 세포주 데이터를 활용해 검증하는 과정을 거쳤다.
그 결과, 유방암 세포주의 이상 유전자 발현은 기존 인간 참조 유전체 기반 모델에서는 예측할 수 없다는 결론을 내렸다.
또 연구팀이 인포HiC를 유방암 환자 90명의 전장 유전체 데이터에 적용한 결과, 여러 환자들에게서 반복적으로 나타나는 유전자를 발견했는데 인핸서 납치에 의한 이들 유전자의 과발현이 암환자의 생존율과 연관이 높다는 점도 밝혀졌다.
이현주 교수는 “최근에 시퀀싱 데이터 비용의 감소로 암 환자의 전장유전체 데이터는 많이 생산되고 있으나, 이에 반해 3차원 암 게놈을 확인할 수 있는 Hi-C 데이터는 고비용 탓에 확보가 쉽지 않다” 면서 “이번 연구는 Hi-C 데이터 예측을 통해서 비암호화 DNA 영역에서의 구조 변이를 가진 암 환자의 개인 맞춤형 치료에 기여할 수 있을 것”이라고 말했다.
GIST AI대학원 이현주 교수와 서울대학교 의과대학 병리학교실 박성혜 교수의 이번 공동연구는 GIST 전기전자컴퓨터공학부 이영훈 박사가 수행하였으며, 정보통신기획평가원(IITP)의 지원을 받았다.
연구 결과는 생화학 및 분자생물학 분야 상위 10% 국제학술지 '몰레큘러 시스템즈 바이올로지(Molecular Systems Biology)'에 2024년 11월4일 표지 논문으로 게재됐다.
박수빈 기자 sbin08@aitimes.com
