▲의학 연구를 수행 중인 과학자(출처=셔터스톡)

빅데이터와 생물학의 만남이 억지스럽다고 평가받던 시대도 존재했다. 당시에는 빅데이터를 단지 수학적이고 통계적인 분야로 간주했으며, 생물학이나 생활과학보다는 수학이나 물리학과 더 관련이 깊다고 생각했다. 그러나 오늘날 빅데이터는 다른 과학 분야보다 생물학 분야에서 가장 성장할 것으로 예상한다. 인간 게놈만 하더라도 서열을 분석하면 14GB(기가바이트) 정도의 데이터이기 때문이다.

생물학과 생활과학 분야에서 데이터가 갖는 의미

전문가들은 2020년까지 생물학과 생활과학 분야에서 생산될 데이터의 총량이 44조ZB(제타바이트, 10의 21제곱바이트)에 달할 것으로 보고 있다. 앞에서 언급한 인간 게놈 수치를 고려하면, 전혀 이상한 수치가 아니다. 더 많은 생물학 실험이 진행됨에 따라, 여러 데이터 세트와 실험적 접근법을 조합함으로써 각각의 연구에서 파악할 수 없는 분자 경로에 대한 새로운 이해를 얻을 수 있다.

또한 빅데이터는 우리가 전형적인 생물을 활용하는 방법에 변화를 가져올 가능성을 가지고 있다. 빅데이터를 통해 가장 저렴하고 쉽게 통제할 수 있는 수준의 실험 시스템상에서 유전자와 질병의 가장 유익한 모델을 정확하고 편향되지 않은 상태에서 분자 수준으로 파악할 수 있다.

생물 의학 연구와 치료에 효과적인 빅데이터

오늘날 생물 의학 연구원들은 분자생물학과 건강관리 사이의 관계를 이해하려는 방법을 탐색한다. 빅데이터를 훨씬 더 개인적인 수준에서 활용할 방법을 검토하고 있는데, 예를 들어 미국 프린스턴 대학의 한 연구진은 인체에서 암세포의 확산을 더 쉽게 추적할 수 있도록 해주는 새로운 데이터 기반 계산 기법을 개발했다.

로스앤젤레스의 캘리포니아 대학(UCLA) 실험실에서, 과학자 발레리 아르보레다는 희소 질환을 연구하기 위해 빅데이터를 활용한다. UCLA 소속 유전학자는 히스톤 단백질의 결함이 인체 전반에 걸쳐 어떤 형태로 나타나는지 연구한다.

프린스턴대학의 벤 라파엘 컴퓨터과학 교수는 DNA 서열 데이터를 체내 암세포 위치 정보와 통합해 암 전이를 추적할 수 있는 알고리즘을 발표했다. 현재 암 전이를 파악하는 가장 발전된 형태의 빅데이터 기반 연구다.

종양학 분야에서 빅데이터는 넓은 범위의 임상 데이터와 함께 활용된다. 정밀 의학 덕분에 환자 개인의 분자 프로파일을 기반으로 한 더 정확한 탐지와 맞춤형 치료법이 가능해질 예정이다.

"2020년까지 생물학과 생활과학 분야에서 생산될 데이터의 총량 44조ZB"

▲생물학 분야에서 활용될 빅데이터

생물학 연구에도 중요한 빅데이터

빅데이터는 다른 생물의 생물학적 데이터를 알아내는 용도로도 활발하게 사용된다. 빅데이터를 복잡한 컴퓨터 계산 기법과 함께 활용하기에 가능한 것인데, 연구를 통해 과학자와 생물학자는 여러 생물과 미생물에게 유효한 최고의 실험 모델을 정량적으로, 체계적으로 파악할 수 있다.

연구의 좋은 예로, 생물학자는 확률을 기반으로 한 기법을 사용해 다양한 생물의 단백질 네트워크를 맵핑함으로써 어떤 유전자가 같은 생물학적 과정에 참여하고 다른 생물 내에서 같은 기능을 하는지 계통적으로 예측한다.

최근 미국 아이오와 주립대학과 미시간 주립대학, 그리고 노스캐롤라이나 대학 소속의 식물 과학자로 구성된 연구팀이 방대한 데이터 세트를 분석해 수만 가지 식물 유전자의 표현형을 설명한 연구 논문을 공동으로 발표했다.

연구는 옥수수가 스트레스에 어떻게 대처하는지 이해하기 위해 시작되었다. 식물 과학자는 작물을 유전 변형해 스트레스가 높은 조건에서도 잘 견디고 건강한 수확물을 생산할 수 있는 작물을 개발하고자 했다. 연구를 위해 옥수수 묘목에 화학 물질을 첨가, 열악한 환경 조건을 조성하고 고출력 기술을 활용해 약 4만 가지 유전자의 활동을 추적했다.

▲박테리아의 삼차원 모델(출처=셔터스톡)

생물학과 생활과학 분야에서 빅데이터의 전망은

생물 의학과 건강과학 분야의 발전은 오늘날 빅데이터 분야의 확장에 추진력을 더하고 있다. 단순히 생산되는 정보의 양이 아닌, 기초 과학에서 임상 연구로의 전환, 보건 시스템, 건강 요인을 알아내기 위한 대규모 인구를 대상으로 한 연구 결과를 모두 포함하는 데이터의 복잡성, 다양성, 그리고 풍부한 맥락 때문이기도 하다. 생물학 연구, 개발의 해당 단계에서, 빅데이터는 정보의 폭발적인 증가를 세포 생물학과 의학 연구, 개발에 도움을 줄 수 있는 식별 가능한 분석 결과로 바꿔주는 주요 도관으로 기능하고 있다.

생물학자와 생활과학 전문가들은 빅데이터 기반 도구를 사용해 이론과 연구를 갱신하는 것을 심각하게 고려해야 한다. 작업을 통해 연구하고 있는 생물학적 과정에 관여하는 단백질을 추가로 찾아낼 수 있다. 또한 빅데이터는 관심 있는 단백질의 분자 기능을 알아내거나 실험적 치료법 또는 유전자 편집에 관련된 새로운 경로를 고려하는 데 도움을 줄 수도 있다. 연구 및 분석 방법을 잘 관리하거나 생물 의학 연구에 활용할 수 있는 적당한 알고리즘을 개발하기 위해서는 많은 수의 빅데이터 시스템이 필요하다.