총 4가지로 나눠 ‘대규모 언어모델’ 문제점 짚어
제프 딘 “최근 연구결과는 포함하지 않고 무시”
연구팀 “참고자료를 알려준다면 기꺼이 응했을 것”

팀닛 게브루 전 구글 AI윤리팀 공동대표. (사진=Tech Crunch).
팀닛 게브루 전 구글 AI윤리팀 공동대표. (사진=Tech Crunch).

전 구글 AI윤리팀 대표 팀닛 게브루 박사 해고 사태는 여전히 현재진행형이다. 트위터에서는 게브루를 지지하는 사람들이 더욱 늘어나고 있고 서명운동에 참여하는 사람도 마찬가지다.

제프 딘 구글 부사장은 게브루 해고와 관련된 구글의 입장문(이메일)에서 “게브루가 먼저 회사에 ‘자신의 요구조건을 들어주지 않는다면 퇴사하겠다’고 통보했다”고 밝혔다. 게브루가 말한 ‘요구조건’이란 문제가 된 논문 검토과정에서 언급된 내용과 관계된 사람들의 신원을 공개하라는 것이었다.

구글이 성차별·인종차별 등 미국이 가장 예민하게 받아들이는 부분을 건드렸다는 시선이 지배적인 가운데 MIT 테크놀로지 리뷰가 문제의 논문을 입수해 어떤 내용인지 보도했다. 게브루가 이끄는 연구진은 ‘가늠할 수 없는 위험한 앵무새에 대하여 : 언어모델은 대규모화 될 수 있나?’ 라는 제목으로 대규모 언어모델의 위험성과 문제점을 크게 네 가지로 짚었다.

◆ 대규모 언어모델 훈련 시 소비되는 탄소배출량

딥러닝을 기반으로 한 대규모 언어모델 훈련에는 어마어마한 양의 전력이 소모된다. 방대한 데이터 양 만큼 그를 학습시키는 컴퓨터 처리 능력도 증가하는 것이다. 게브루 연구팀은 지난 2019년 엠마 스트루벨 박사가 발표한 논문을 예로 들어 훈련 시 소비되는 탄소배출량과 비용을 언급했다. 그러면서 2017년 이후부터 꾸준히 언어모델을 업데이트 해오는 동안 에너지 소비량과 탄소배출량이 폭발적으로 증가했다고 지적했다.

게브루 연구팀이 참고한 2019년 스투라벨 박사 연구진이 조사한 대규모 언어모델과 탄소배출의 상관관계. (차트 제작=MIT 테크놀로지, 자료=Strubell et al).
게브루 연구팀이 참고한 2019년 스투라벨 박사 연구진이 조사한 대규모 언어모델과 탄소배출의 상관관계. (차트 제작=MIT 테크놀로지, 자료=Strubell et al).
게브루 연구팀이 참고한 2019년 스투라벨 박사 연구진이 조사한 대규모 언어모델과 탄소배출의 상관관계. (차트 제작=MIT 테크놀로지, 자료=Strubell et al).
게브루 연구팀이 참고한 2019년 스투라벨 박사 연구진이 조사한 대규모 언어모델과 탄소배출의 상관관계. (차트 제작=MIT 테크놀로지, 자료=Strubell et al).

한 예로 2018년 구글이 공개한 언어모델 버트(BERT)는 기존보다 향상된 성능을 자랑하는 차세대 범용 AI모델로 주목받았다. 구글은 버트를 훈련시키는 동안 1438lb(약 652kg)의 이산화탄소를 발생시켰는데 이는 비행기가 뉴욕에서 샌프란시스코를 왕복으로 오갈 때 뿜어내는 양과 같다.

◆ 측량하기 어려울 만큼 늘어나는 데이터 양

대규모 언어모델은 개발됐다고 해서 끝이 아니다. 계속해서 변화하는 인간의 언어를 습득해 보다 인간답게 구사하려면 꾸준한 업데이트가 필요하다.

게브루 연구팀은 논문에서 AI기술이 인간사회가 변화하면서 같이 변하는 언어의 뉘앙스를 얼마만큼 이해할 수 있는지에 관해 부정적인 입장을 보였다. 그는 미투와 흑인인권 운동인 ‘블랙라이브즈매터(Black Lives Matter)’를 예로 들었다. 이 두 운동이 전 세계적으로 확산되면서 이를 표현하는 수많은 반(反) 성차별·인종차별적 텍스트가 생겨났다. 게브루는 과연 대규모 언어모델이 지금까지 훈련받은 것과 상반되는 언어의 차이를 완벽히 해석할 수 있을지에 의문을 나타냈다. 인종차별적 언어를 정상이라고 훈련받아 온 AI는 갑자기 나타난 새로운 ‘문화적 규범’으로 발생한 전혀 다른 뉘앙스의 언어를 생산하거나 해석할 수 없다는 것이 그의 주장이다.

◆ 잘못된 연구로 소비되는 기회비용

게브루는 대규모 언어모델을 연구하는 연구원들의 행태도 꼬집었다. 그에 따르면 대부분의 AI연구자들은 대규모 언어모델이 실제로 언어를 이해하는 것이 아닌 기능만 뛰어나다는 것을 알면서도 투자를 계속하고 있다. 그야말로 ‘돈 되는’ 분야이기 때문이다. 게브루 연구팀은 논문에서 “이는 적잖은 기회비용을 수반한다”며 반면 “더 세심하게 큐레이션(구조화)된 AI데이터셋으로 개발할 수 있는 데이터모델에는 관심 갖는 과학자가 없다”고 지적했다. 물론 이러한 데이터모델은 언어모델보다 에너지사용량도 적다.

◆ 가장 쉽게 악용될 우려

끝으로 게브루 연구팀은 대규모 언어모델이 인간의 언어를 완벽에 가깝게 흉내낼 수 있기 때문에 이를 악용하는 사례가 증가할 가능성에 대해 문제를 제기했다. 그로 인해 피해를 입는 것은 결국 사람이라는 것이다. 선거나 코로나19 팬데믹을 주제로 가짜뉴스 생성을 비롯해 번역 오류 경우도 가능하다.

한 예로 페이스북은 2017년 한 팔레스타인 사용자가 아랍어로 ‘좋은 아침’이라고 적은 포스팅을 ‘공격’이라고 잘못 번역해 체포되는 일까지 발생했다.

여기까지가 논문 내용이다. 제프 딘 구글 부사장은 논문이 심사를 통과하지 못한 이유에 대해 “관련 연구를 ‘무시’했기 때문”이라고 밝혔다. 또 “대규모 언어모델이 에너지 효율을 높이고 편향문제를 완화하는 최근의 연구결과는 싣지 않았다”고 덧붙였다.

그러나 게브루를 포함한 6명의 연구진은 모두 이 분야에서 학위를 받은 전문가다. 연구진 중 한 사람인 에밀리 벤더 박사는 “물론 대규모 언어모델이 내포하고 있는 편향성을 측정하고 줄이기 위한 연구노력 또한 잘 알고 있다”며 “그같은 노력만으로는 부족하다는 점을 지적하고 싶었다”고 말했다. 벤더는 이어 “우리 연구팀이 참고해야 할 자료에 대해 알려준다면 기꺼이 응할 수 있다”고 덧붙였다. 그러나 구글 측은 그러한 협의과정을 생략했고 연구팀 리더 게브루가 퇴사하는 결론에 이르렀다.

2017년부터 구글 브레인에서 근무하는 니콜라스 르 루 박사도 게브루가 지나치게 가혹한 대우를 받았다는 입장이다. 루는 4일 트위터를 통해 “나는 단 한번도 구글로부터 논문에 대해 사전검열을 받은 적이 없다”고 밝혔다.

구글 브레인에서 근무하는 니콜라스 르 루 박사 트윗 캡처.
구글 브레인에서 근무하는 니콜라스 르 루 박사 트윗 캡처.

윌리엄 피츠제럴드 전 구글 홍보팀장 역시 트위터에 제프 딘의 해명은 “순 거짓말”이라며 “논문을 검토하는 것은 PR(홍보)팀 일이었다. 사내 논문이 굉장히 많아 어느 때에는 검토도 못 하고 출간되는 경우도 있었다”고 썼다. 그러나 “그 중 누구도 처벌받은 일은 없었다”고 덧붙이면서 논란을 더욱 증폭시켰다.

윌리엄 피츠제럴드 전 구글 홍보팀장 트윗 캡처.
윌리엄 피츠제럴드 전 구글 홍보팀장 트윗 캡처.

팀닛 게브루 박사가 말하는 ‘현재 AI업계’는…

지난 2월 펜실베니아 주립대 와튼스쿨에 강연자로 방문한 팀닛 게브루 박사. AI업계가 달라져야 할 부분과 자신이 바라는 부분에 대해 가감 없이 의견을 제시했다. 그에 따르면 IT 기업은 여전히 데이터 수집과 AI에 대해 이해하지 못 하고 있다. 다음은 게브루가 와튼스쿨 내 라디오 방송인 ‘와튼 비즈니스 데일리’에 출연해 기업이 명심해야 할 다섯 가지 사항에 대해 밝힌 것이다.

1. 데이터 수집·사용에 관한 더 많은 교육 필요

게브루는 최신 소프트웨어 등 툴을 이용해 어제보다 빠르게 다운로드하며 데이터를 최대속도로 수집하는 행태를 지양한다. 대신 사람들에게 ‘데이터 필요성·중요성’에 대해 교육해야 한다고 강조했다. 다운로드 속도를 늦추는 대신 인센티브 구조를 갖추는 것이 바람직하다고 말했다.

2. 현재 대부분 기업은 AI에 관한 인식도, 해결능력도 부족하다

게브루는 안면인식 데이터 기업 클리어뷰AI를 예로 들어 “데이터베이스 구축이 곧 모든 사람들의 프라이버시를 침해하는 범죄라는 인식을 못 하는 것 같다”고 안타까워했다. 클리어뷰AI는 소셜미디어 속 사진을 무작위로 수집, 편집해 방대한 DB를 구축했다가 2월 해킹당하면서 뭇매를 맞은 기업이다. 게브루는 “이러한 행태가 모두 AI에 관한 인식이 부족하기 때문”이라고 말했다.

3. 규제나 정책보다 앞서가는 기술혁신

게브루는 “오류투성인 안면인식이나 자율주행차 기술에 확실한 정책이 마련돼 있다면 충분히 보완된 이후 세상에 나왔을 것”이라고 강조했다.

4. 아직 다양한 인종을 아우르지 못하는 AI산업계

게브루는 ‘블랙 인 AI’라는 흑인으로만 구성된 AI과학자 클럽을 개설한 것에 대해 “많은 IT 기업들이 대외적으로 다양성을 말하지만 내부에서는 이뤄지지 않고 있는 것이 현실”이라고 말했다. “그는 아직 실리콘밸리에서는 흑인 과학자 비율이 적으며 그들에게 끈끈한 동료애와 모티베이션을 주기 위해 이 단체를 만들었다”고 밝혔다.

5. AI와 윤리의 교차점에 관심 갖는 사람들이 늘고 있어

“개인정보 노출, 인권침해 등의 피해를 겪은 이후 사람들이 AI와 윤리에 대한 관심이 자연스레 증가하고 있다”며 “이를 기쁘게 받아들인다”고 말했다. 또한 “AI윤리가 기술적인 부분에서 그치지 않고 저임금을 받고 일하는 사람 등 인간의 노동력을 아우르기 시작했다”고 덧붙였다.

AI타임스 박혜섭 기자 phs@aitimes.com

[관련기사] 구글, 부당 해고 논란에 “팀닛이 먼저 조건부 사직 통보했다”

[관련기사] #IstandwithTIMNIT 해쉬태그 번진다, 팀닛 게브루가 쏘아올린 작은 공…구글에 쏟아지는 맹비난

[관련기사] 구글의 민낯? AI윤리팀 팀닛 게브루 박사 해고 논란, 내부 고발 메일 발단

키워드 관련기사
  • 딥마인드 알파폴드2 쇼크 이후 학계 비판 쇄도... “과잉 보도다”
  • 딥마인드 “50년 묵은 과제 해결했다”...알파폴드2로 코로나19 바이러스 단백질 구조 예측
  • 영국 케임브리지대, '책임감있는 AI 사용' 석사 과정 개설