AI·머신러닝이 뿜어내는 엄청난 탄소배출량 어이할꼬?...왜 그럴까?

한 AI모델 훈련 시 소비되는 탄소배출 문제 심각
MIT 연구진, 구글이 BERT 훈련시 1438lb(약 652kg)
이산화탄소 발생...뉴욕- 샌프란시스코 왕복 비행기가 뿜어내는 양과 같아
AI 개발·과학자…그린AI 향한 연구 이어가
파라미터 재구성 해 큰 규모로 변환하는 ‘형태변환’ 등
“에너지 소모율 낮춰 친환경적 보편화 AI 만들어야”

최근 전 구글 AI윤리팀 공동대표 팀닛 게브루 박사가 강제해고 당한 사건은 AI를 비롯한 IT 산업계에 빅뉴스였다. 인종·성별을 차별한 조치라는 의견이 지배적이었지만 그에 앞서 가장 큰 원인은 그가 지금껏 구글의 AI모델 개발 시 발생한 여러 문제점을 짚은 논문 때문이었다.

게브루 연구팀이 논문에서 밝힌 내용 중 하나는 AI모델 훈련과 이에 따른 탄소배출량의 상관관계였다. 테크엑스플로러는 15일(현지시간) 현재까지 AI 개발과 훈련과정에서 얼마나 탄소가 배출되고 그 이유가 무엇인지 보도했다. 이어 향후 어떠한 방식으로 개선돼야 하는지에 관해서도 제시했다.

AI는 알고리즘을 이해하는 법을 익힐 때까지 엄청난 양의 데이터를 읽어낸다. 이 훈련은 인간이 학습하는 방식과 비교해 매우 비효율적이다. 현대 AI는 인간 뇌 속 뉴런(신경세포)을 모방한 수학적 연산인 인공 신경망을 사용한다.

각각의 인공 신경망을 학습한 결과는 가중치(파라미터) 값으로 축적된다. 머신러닝 기반 언어모델을 훈련하는 경우 네트워크는 무작위 파라미터부터 출력 결과가 정답과 일치할 때까지 반복을 거듭한다.

언어 네트워크를 훈련시키는 흔한 방법은 위키피디아나 신문기사, 웹사이트에서 가져온 수많은 텍스트와 단어를 AI모델에 한꺼번에 공급하는 것이다. 이 가운데 어떤 단어나 텍스트는 일부분 가려져있어 AI가 추측할 수 있다.

한 예로 ‘우리집 강아지는 정말 귀엽다’는 문장에서 몇 개의 단어를 숨긴다. 이를 처음 본 AI는 달라진 패턴에 적응하지 못해 잘못 이해할 것이다. 그러나 반복해서 보여주고 여러 번 조정한 후에는 파라미터가 변경되고 데이터에서 새로운 패턴을 수집하기에 이른다.

2018년 공개된 구글의 버트(BERT)는 언어처리 태스크를 양방향으로 사전학습하는 최초의 대규모 언어모델로 큰 주목을 받았다. 구글은 버트를 훈련시키기 위해 책, 위키피디아, 신문기사 등에서 선별한 33억개의 영단어를 사용했다. 버트는 이 데이터세트를 평균 40번 반복해 읽었다. 비교를 하자면 대화를 배우기 시작하는 평균연령 5세 아이들은 4500만 단어를 듣고 말하며 학습한다. 이는 버트보다 약 3000배 적은 수치라고 한다.

대규모 언어모델을 만드는 데 훨씬 더 많은 비용이 드는 이유는 이같은 훈련 과정이 개발 과정 중 여러 번 발생하기 때문이다. 연구진은 뉴런 수를 비롯 뉴런 사이를 잇는 연결 수, 파라미터가 얼마나 빨리 변하는지 파악하기 위해 끊임없이 AI를 훈련시킨다. 더 많은 조합을 시도할수록 네트워크가 높은 정확도를 달성할 가능성도 높아진다.

미국 매사추세츠 주립대 애머스트 캠퍼스 연구진은 언어모델 훈련 중 사용되는 공통 하드웨어의 전력 소비량을 측정해 하나의 AI모델을 개발하는 데 드는 에너지 비용을 추정했다. 엠마 스트루벨 박사 연구진은 구글이 버트를 훈련시키는 동안 1438lb(약 652kg)의 이산화탄소를 발생시켰는데 이는 비행기가 뉴욕에서 샌프란시스코를 왕복으로 오갈 때 뿜어내는 양과 같다고 밝혔다. 이 내용은 게브루 연구팀이 논문에서 인용하기도 했다.

또 게브루 연구팀은 논문에 구글이 개발한 언어모델 트랜스포머의 경우, 2억1300만개 파라미터를 갖고 있고 학습 과정에서 62만6155lbs(약 28만4000kg)의 이산화탄소를 발생시킨 것을 밝혔다.

AI모델은 인간이 실제 필요한 것보다 매년 더 크게 성장한다. 구글의 GPT-2는 네트워크에 15억개의 파라미터를 갖고 있다. 올해 발표된 GPT-3는 무려 1750억개 파라미터로 탄생한 모델이다. 늘어나는 파라미터 수는 곧 그만큼의 훈련을 거듭하는 동안 에너지 사용량이 큰 비중을 차지했다는 의미이기도 하다.

인간이 100% 재생 에너지원으로 전환하지 않는 한 AI 개발은 온실 가스 배출을 줄이고 기후 변화를 늦추려는 세계 각국 정부목표와 부딪힌다. 뿐만 아니라 매년 증가하는 연구개발 비용도 문제점으로 자리잡고 있다. 소수의 엄선된 연구소만이 AI모델 개발에 착수하게 되는 것이다.

전문가들은 비용문제의 경우 향후 효율적인 훈련방법이 개발된다면 그만큼 낮아질 것으로 기대한다. 한 예로 데이터센터의 에너지 사용량은 최근 몇 년 동안 폭발적으로 증가할 것으로 예측됐지만 하드웨어와 냉각 효율 개선으로 인해 실제로 발생하지는 않았다.

보스턴 대학 케이트 사엔코 박사는 가중치를 공유하거나 네트워크의 여러 부분에서 동일한 가중치를 사용해 AI 모델을 작게 만드는 방법을 연구하고 있다. 일명 ‘형태변환 네트워크(Shapeshifter Network)’다. 사엔코에 따르면 이러한 방법은 작은 무게 집합이 어떤 형태나 구조의 더 큰 네트워크로 재구성되기 때문에 에너지 발생율이 적다고 한다.

사엔코는 “앞으로 AI 커뮤니티는 에너지 효율적인 AI 개발모델을 모색하는 데 더 많은 투자를 해야 한다”고 강조했다. 그렇지 않으면 “막강한 자본력을 갖고 있는 소수의 IT기업에 소속된 소소의 선택된 사람들만이 AI를 지배하게 될 위험이 있다”고 경고했다. 결국 그린AI 개발은 친환경적인 것과 동시에 보편적 AI를 위한 시작인 셈이다.

AI타임스 박혜섭 기자 phs@aitimes.com

[관련기사] 점입가경 팀닛 게브루 논문 논란, MIT가 분석해보니…