(사진=셔터스톡)
(사진=셔터스톡)

영국 라이브 데이터 전문 기업 웬디스코(WANdisco)가 국내 코로나19 연구를 진행하는 정부 지정 연구기관에 라이브 데이터를 무상제공했다.

관련 라이브 데이터는 코로나19유전체와 대용량 유전체 분석을 위한 것이다.

국내 연구진들은 라이브 데이터 무상제공으로 코로나19 해결을 위한 연구 속도가 더욱 빨라졌다고 전했다.

21일 웬디스코는 한국생명공학연구원(이하 생명연, 원장 김장성) 국가생명연구자원정보센터(KOBIC, 센터장 김선영)에 데이터 복제 소프트웨어를 무상으로 기증했다고 밝혔다,

KOBIC은 국가 차원의 정보 인프라를 구축해 생명 연구 자원 확보와 관리를 지원하는 정부 지정  연구기관이다. 

KOBIC은 작년 3월부터 코로나19 연구를 위해 전 세계에 흩어져 있는 코로나 19 관련 유전체와 단백체 데이터를 수집해 정보를 제공하는 ‘코로나 19(COVID-19) 연구정보 포털’을 오픈해 연구자들에게 제공하고 있다. 

또 국가생명연구자원 통합정보시스템 구축과 운영의 일환으로 대용량 유전체 분석용 클라우드 서비스인  ‘바이오 익스프레스(Bio-Express)’를 제공하고 있다. 

서비스는 KOBIC에서 자체 구축한 빅데이터 플랫폼에서 운영되며, 대용량 유전체 데이터를 쉽고 간단하게 분석 할 수 있도록 지원하고 있다. 국내 주요 병원, 기업, 대학, 연구기관의 생명 공학 연구자들에게 무료로 제공된다. 

KOBIC이 보유한 대용량 유전체데이터와 바이오 익스프레스 사용자가 급격히 늘어나며 빅데이터 플랫폼의 데이터 처리 성능이 문제로 발생했다.

(자료=웬디스코)
(자료=웬디스코)

바이오 익스프레스를 이용한 고속 데이터 분석 시 대용량 데이터처리로 많은 시간이 소요됐다. ▲서로 다른 운영 환경의 분석 도구들을 지원하기 위한 하둡 기반 분산파일시스템(HDFS, Hadoop Distributed File System)과 ▲리눅스/유닉스 기반 러스터 파일시스템(Lustre file system) 간 대용량 데이터의 양방향 복제가 그 원인.

바이오 익스프레스에서는 하루 평균 약 20TB(테라바이트) 정도의 데이터 복제가 발생해 전체 처리시간의 40%이상을 소비하고 있다.

KOBIC의 김판규 전산개발실장은 "데이터 복제에 과도한 시간이 소요되는 문제의 근본 해결책을 찾았으며 마침 웬디스코가 KOBIC의 고민을 해결할 수 있는 솔루션의 영구 무상 제공을 제안했다"라고 밝혔다. 

웬디스코가 기증한 솔루션은 라이브 데이터 플레인(Live Data Plane)이다. 이 솔루션은 데이터 가용성과 일관성을 보장하면서 동시에 대용량 데이터 복제시간을 획기적으로 단축할 수 있다.

백지훈 웬디스코 한국 지사장은 “코로나19 사태로 전 세계 주요 바이오 연구 기관의 빅 데이터 3V(Volume, Variety, Velocity) 처리 역량 중 속도(Velocity)가 곧 전염병 극복을 위한 백신과 치료제 개발에 있어 그 무엇보다도 중요해졌다”고 설명했다.

그는 “웬디스코는 2020년 1분기 연구 기관을 대상으로 라이브 데이터 플레인 솔루션 무료 기증을 발표했고, 한국의 경우 KOBIC의 아키텍처 개선을 위해 글로벌 세일즈 선임부사장인 키이스 그래함이 영구 라이선스 기증과 함께 본사·현지 인력까지 특별히 추가로 무상 지원해 KOBIC의 차세대 바이오 익스프레스 환경에 맞게 데이터 복제 방식을 적용했다”고 강조했다.

KOBIC은 2020년 하반기 웬디스코의 도움으로 빅데이터 플랫폼의 고속 복제 환경을 구현했다. 이는 2021년 오픈할 바이오 익스프레스 차기 버전에 반영할 예정이다. 

KOBIC은 웬디스코 솔루션의 적용으로 바이오 익스프레스 서비스를 이용한 대용량 유전체 분석 효율을 크게 높일 것으로 기대하고 있다. 

KOBIC 전산개발팀 고건환 연구원은 "KOBIC은 웬디스코 라이브 데이터 플랫폼을 하둡 기반 분석 클러스터와 리눅스 기반 분석 클러스터 간 복제에 활용함으로써 기존보다 13배 빠른 파일 복제을 할 수 있게 되었고, 바이오 익스프레스 서비스의 전체 평균 분석 시간을 30% 이상 단축할 수 있었다”고 말했다.

AI타임스 양대규 기자 yangdae@aitimes.com

[관련기사] '바이오 빅데이터' 구축한다

[관련기사] 英, 국가 AI 영상 데이터베이스 공개…코로나19 대응 나선다

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지