말은 ‘청산유수’, 추론은 ‘젬병’...GPT-3 등 자연어처리 AI 모델 시험 결과

美대학 연구진, 자연어 AI모델들의 상식적 추론 파악 능력 테스트
인터넷 등 광범위한 소스 제공···종종 자신이 언제 틀렸는지 몰라
도덕성·역사·법 같은 인간 사회의 중요한 주제로 낸 문제에 ‘쩔쩔’

미국 컬럼비아대, 시카고대, 버클리대 공동 연구진이 세계적 주목을 받고 있는 오픈AI사의 최첨단 AI언어모델인 GPT-3 등을 대상으로 추론 능력 테스트를 해 본 결과 기본적 추론에서조차 젬병인 것으로 드러났다. 사진=오픈AI

미국 대학 연구원들이 세계적으로 주목받는 오픈AI의 GPT-3를 포함한 최첨단 자연어 인공지능(AI) 모델로 시험을 보게 했더니 의외의 결과가 나왔다. 단적으로 초등학교 수학 문제 풀기도 힘들어 했다.

자연어 AI가 최근 기사작성·일기쓰기·사람과의 대화 등에서 보여준 문장짓기나 말솜씨는 ‘청산유수’였지만, 상식을 바탕으로 추론해 문제를 해결하는 능력은 ‘젬병’이라는 얘기다.

오픈AI의 최첨단 자연어 모델로 유명한 GPT-3조차도 사회적으로 중요한 주제인 도덕성, 역사, 법 관련 시험문제를 받아들고 진땀을 흘렸다.

벤처비트는 9일(현지시각) 미국 컬럼비아대·시카고대·버클리대 공동 연구진의 논문을 바탕으로 자연어AI가 놀라운 언어능력을 보여주지만 추론 능력에서는 크게 부족하다는 것이 확인됐다고 전했다.

최근 소개된 몇몇 벤치마크들은 AI모델들의 언어적 능력을 포착하려고 시도했지만, 아직까지 이 벤치마크 성과와 언어모델의 상식적 추론 파악 능력 사이의 상관관계를 제시하는 증거는 거의 없다.

◆57개 과제 제시하고 세상에 대한 폭넓은 지식 기반 문제 해결 능력 테스트

공동 연구진의 새로운 테스트 세트의 목표는 AI모델들이 훈련하는 동안 보는 지식과 기존 자연어에 있어서의 성공의 척도 사이의 간극을 메우는 것이다.

연구진은 언어 AI모델들의 추론 능력을 측정하기 위한 57개 과제를 제안했다. 모델들이 시험을 잘 치르기 위해서는 문제 해결 능력과 세상에 대한 폭넓은 지식을 가지고 있어야 한다. 그러나 논문 공저자들은 이 실험 결과 GPT-3를 포함해 그들이 벤치마킹한 자연어AI 모델들이 종종 언제 자신들이 틀렸는지도 모른다는 것을 발견했다.

모든 머신러닝 모델과 마찬가지로 언어(자연어) AI 모델도 위키백과, 소셜뉴스사이트 레딧, 전자책, 그리고 다른 웹 소스에서 가져온 방대한 데이터 세트로부터 패턴을 배운다.

연구원들은 그들의 이번 테스트가 수학, 역사, 윤리 같은 인간이 흔히 배우는 과목에 걸쳐 자연어 AI 모델을 평가한다는 점에서 다르다고 주장한다.

이 평가를 위해 3개 대학의 대학원 및 학부생들은 온라인에서 자유롭게 이용할 수 있는 출처로부터 1만5908개의 문제를 수집했으며, 여기에는 학부 과정 실습 시험, 옥스퍼드 대학 출판부 독자 대상 퀴즈, 대학원 입학자격 시험(GRE), 미국 의학 면허 시험, 전문 임상심리학 시험 등이 포함됐다.

공저자들은 “과제 수준을 초등학교에서부터 전문가에 이르기까지 다양하게 샘플링했기에 언어 AI모델의 사각지대를 식별하는 데 충분하다”고 말했다.

이들은 각 과목마다 최소한 100개의 시험 사례가 포함되어 있다고 언급하면서 “우리는 임의의 실제 텍스트 이해를 측정했다”고 말했다. 또 “언어 AI 모델들이 인터넷에서 사전에 훈련돼 있었기에 이들이 거대한 말뭉치에서 유용한 지식을 추출할 수 있는지 시험할 수 있게 해 준다”고 설명했다.

◆높은 수준의 절차 요구 문제 풀이에 약해···초등수학·대입해 푸는 과제 힘들어 해

연구진은 GPT-3 외에도 구글의 T5와 앨런연구소의 AI 통합문답(UnifiedQA)연구 성과를 벤치마킹했다.

연구 결과 최근 몇 달 동안에는 의미있는 진전이 있었던 것으로 나타났다. 즉, 최고 130억개의 변수를 포함한 모델들은 25%의 정확도를, 1750억개의 변수를 가진 GPT-3같은 모델은 43.9%의 정확도를 보였다. (변수들은 시간경과에 따른 훈련 데이터를 통해 학습한 모델의 일부분이다.)

연구진은 “AI언어모델은 인간의 승인(비승인) 모델링에 특히 서툴다. 이는 전문법과 도덕 시나리오 과제에 대한 낮은 성과에서도 분명하게 나타난다. 게다가 이 모델은 계산수행에 어려움을 보여 초등학교 수준의 수학과 대입해서 푸는 방식의 다른 많은 과학·기술·공학·수학(STEM) 과제에서도 낮은 점수를 보였다. 이는 GPT-3가 절차적 지식보다 선언적 지식을 더 쉽게 습득하기 때문이라고 생각한다”고 설명했다.

GPT-3는 그 어떤 단일 과목에서도 우수한 성적을 거두지 못했다. 시험 세트에서 GPT-3의 성적은 한쪽으로 치우쳤다. 예를 들어 최상위 과목(미국 외교정책)에서는 거의 70%의 정확도를 보였지만, 대학 화학 같은 다른 여러 과목에서는 ‘하찮은(near-random)’ 성능을 보였다.

연구진은 “전반적으로 GPT-3는 고도의 절차를 요구하는 문제에서 서툴게 작용한다”고 설명했다.

이번 연구에서 드러난 결과는 현재 AI 언어 모델들이 개선될 여지가 있다는 것을 암시하지만, 기존의 기법들로 충분할지는 불확실하다.

연구원들이 지적했듯이 이전 연구에서는 모델 크기가 10배 증가하면 데이터가 약 5배 증가해야 하는데, 이는 하지 말라는 것과 다름없다. 이에 대해 연구원들은 “수십조 개의 매개변수 언어 모델을 만드는 데 드는 엄청난 비용과 별개로 데이터가 병목현상을 가져 올 수 있다”며 “일상의 텍스트에 비해 난해한 지식(의 가지)은 훨씬 덜 쓰인다”고 지적했다.

[관련기사] GPT3가 쓴 뉴스가 랭킹1위, 사람을 이겼다

이재구 객원기자 jklee@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기