마이크로소프트 · 페북 · 구글 자연어처리(NLP) 시장서 각축
구글 130억 개 파라미터 101개어 번역 모델, 높은 성능 자랑
학습된 데이터에 한정된 결과 창의적인 답변 못한다는 한계

마이크로소프트ㆍ페이스북ㆍ구글 등 공룡 인공지능 기업간 자연어처리(NLP)분야 선점 경쟁이 뜨겁다.

페이스북이 100개의 언어를 번역할 수 있는 모델 M2M-100을 공개한 지 며칠 지나지 않아 마이크로소프트가 다국어 번역모델 T-ULRv2를 공개했다. 이번엔 구글이 101개의 언어를 번역할 수 있는 모델의 개발소식을 알렸다.

구글이 새롭게 개발한 다국어 모델 mT5를 깃 허브(GitHub)에 오픈소스로 공개했다고 29일(현지시간) 미 AI 전문사이트 마크테크포스트(Marktechpost)가 보도했다. (깃허브 링크)

구글에 따르면 mT5는 101개 언어 데이터 세트에 대해 사전 학습된 Google T5 모델의 다국어 변형인 mT5는 3억 ~ 130억 개의 매개 변수 (예측에 사용되는 모델 내 변수)를 포함하며 100개 이상의 언어를 학습할 수 있는 모델이다.

모델의 크기가 커지면서 점점 더 큰 데이터셋을 필요로하게 되자 구글의 연구진은 무작위 웹 스크랩핑을 통해 데이터를 수집했다. 인터넷 웹사이트에서 크롤링된 750GB 분량의 영어 텍스트 데이터 C4와 107개의 각종 언어 데이터가 포함된 MC4를 더한 자료를 기반으로 학습을 진행했다.

mT5 번역 모델에 포함된 언어. (한국어 포함)

하지만, 데이터의 성격에 따라 인공지능에 편향(Bias)이 부여된다는 것은 저명한 사실. 이에 구글의 연구진은 데이터 정화작업을 진행한 후 mT5를 학습시켰다. 구글은 "중복되는 문장과 데이터를 잘라내고 비속어를 걸러내 편향을 줄였다"라고 밝혔다.

구글에 따르면 130억 개의 파라미터를 가진 mT5-XXL 모델은 현존하는 다국어 모델 중 가장 뛰어난 성능을 보인다. 다국어 모델을 대상으로 의미론적 사고와 구문론적 사고 성능과 언어 간 일반화(cross-lingual generalization) 능력을 측정하는 Xtreme 벤치마크에서 mT5는 타 모델보다 높은 점수를 기록했다.

한편 일각에서는 구글이 사용한 Xtreme 벤치마크에 대한 의구심을 드러냈다. 다른 벤치마크나 테스트가 존재하기에 추가적인 검증이 필요하다는 것. 또, mT5와 같은 오픈 도메인 형식의 모델은 새로운 질문에 독창적인 답변을 하지 못하고 학습된 데이터에 한정해 결과값을 내는 한계가 있다는 지적도 존재한다. 이에 구글은 "mT5는 전문적인 모델링 기술 없이도 강력한 다국어 모델을 만들어가는 데 중요한 디딤돌"이라고 답하며 "다양한 벤치마크에서도 좋은 성능을 보인다"라고 주장했다.

[AI & Tech] 페이스북, AI로 100개 언어 번역 기능 제공한다

[AI & Tech] "그래 죽어버려" 인공지능 GPT3가 '악플'을 달았다

키워드 관련기사
  • 중국, AI와 사람이 SF 연재소설 함께 쓴다...AI와 작가의 콜라보 탄생
  • 마이크로소프트(MS) 통합 개발 플랫폼 '닷넷5' 공개
  • EMNLP 선정 자연어처리 논문 Top5...1위는 U.C버클리대 ‘무성인식’