GPT3 능가하는 자연어 모델 훈련 알고리즘 등장
상태바
GPT3 능가하는 자연어 모델 훈련 알고리즘 등장
  • 입력 2020-10-08 07:30
  • 댓글 0
이 기사를 공유합니다

PET 알고리즘 훈련한 ALBERT 모델, GPT-3의 0.1% 매개변수로도 더 높은 성능 보여
네티즌 반응 "긴 문장 처리는 여전히 GPT-3가 압도적"에 연구팀 리더 "인정"

뮌헨 루트비히 막시밀리안 대학교(LMU Munich) 연구팀이 자체 개발한 패턴-활용 훈련(Pattern-Exploiting Training, 이하 PET) 알고리즘으로 훈련한 ALBERT기반 트랜스포머 모델(76.8점)이 GPT-3(71.8점)보다 3% 더 높은 성능을 보였다. 연구팀은 매개변수 1750억개를 가진 GPT-3의 0.01%에 해당하는 2억 2300만개 매개 변수를 가진 모델을 사용했다.  ALBERT(A Lite BERT for Self-supervised Learning of Language Representations)는 구글AI의 BERT기반 모델보다 적은 매개 변수를 사용하는 가벼운 모델.

LMU 뮌헨 정보 언어처리 대학의 하인리히 슈체(Hinrich Schütze) 교수와 박사 과정 중인 티모 쉬크(Timo Schick)는 "크기는 중요하지 않습니다: 작은 언어 모델도 퓨 샷 러너입니다(It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners)"라는 논문(https://arxiv.org/abs/2009.07118)을 공개했다. 해당 논문은 슈체 박사와 쉬크가 개발한 PET 알고리즘을 훈련시킨 자언어 모델과 GPT-3의 성능을 SuperGLUE 벤치마크로 측정한 값을 담았다. SuperGLUE(General Language Understanding Evaluation) 벤치마크는 자연어처리 모델 성능을 평가하는 데이터 세트. 

PET은 몇 가지의 예로부터 추가적인 훈련 데이터를 생성하는 준지도 학습 알고리즘으로 입력을 cloz-스타일 문구로 변한 후 라벨이 없는 데이터 세트에 '소프트 라벨' 데이터를 할당하는 모델을 미세조정하는데 사용된다. 미세조정된 모델이 생성한 '소프트 라벨' 데이터 세트는 최종 모델을 미세 조정하는데 쓰인다.

연구팀은 "PET은 자료ㆍ자원이 없는 환경에서 지도 학습과 비지도 학습 방법을 모두 능가한다"며 "델의 "퓨 샷(Few-Shot) 성능을 향상시키기도 한다"고 전했다. 퓨 샷 학습(Few-shot learning)은 소량의 데이터로 모델을 훈련시키는 방법. 오픈AI의 GPT-3는 사전학습된 거대 자연어처리 모델이 미세 조정 없이 퓨 샷, 원 샷, 제로샷 학습법 등을 통해 우수한 성능을 발휘하는 예다. 

한편, 온라인 커뮤니티에서 네티즌이 "일반적이지 않은 입력에도 PET 알고리즘으로 훈련된 언어 모델이 유연하게 반응하는지 궁금하다"고 질문하자 쉬크는 "GPT-3가 긴 문장을 생성(요약 또는 번역)하는데 우리의 알고리즘보다 낫다"고 답했다. 

한편, 무료 GPT-3 베타 버전을 배포했던 오픈AI는 이번 달부터 GPT-3 API를 유료로 전환했다. 

[AI & Tech] 인공지능 GPT-f가 생성한 수학 증명, 공식 수학커뮤니티에서 채택

[AI & Tech] 오픈AI, 10월부터 GPT3 API 유료로 배포

 

Tag
#GPT-3
기자 프로필

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
유용한 리스티클
  • AI 재현 기술, 로마 황제 얼굴을 살려냈다
  • EU가 뽑은 인공지능(AI)ㆍ로봇 기술 9가지
  • 차세대 콘텐츠에 활용할 수 있는 인공지능(AI) 기술 6가지
  • "당신의 외모는 몇 점?"…AI가 평가하는 내 얼굴은?
  • 코로나19 대유행 시대, 학교가 갖춰야 할 7가지 필수품은?
  • 비대면 시대, XR(확장현실)기술 사용 국내외 건축ᆞ부동산 기업 7