(사진=셔터스톡).
(사진=셔터스톡).

인공지능(AI)의 언어실력이 나날이 성장하고 있다. 마이크로소프트(MS)의 자연어이해(NLU) AI 모델 ‘DeBERTa’가 자연어이해 성능평가에서 인간 기준점보다 높은 점수를 받으면서 구글을 제치고 1위로 올라섰다.

MS는 자사의 언어모델 ‘DeBERTa’가 슈퍼글루(SuperGLUE) 벤치마크에서 인간 기준점보다 높은 90.3점을 기록해 1위를 차지했다고 지난 6일(현지시간) 공식블로그를 통해 밝혔다. 슈퍼글루 벤치마크는 자연어이해 AI 모델 성능을 비교‧측정하기 위한 평가방법으로 글루(GLUE) 벤치마크보다 난도를 높인 버전이라 할 수 있다.

예를 들어 인과적 추론 과제의 경우 어떤 아이가 병에 대한 면역력이 생겼다고 하자. 이 같은 상황의 원인이 무엇인지 묻는 질문에 대해 AI 언어모델은 “병에 노출되는 것을 피했다” 또는 “병에 대한 백신을 맞았다” 두 가지 그럴듯한 보기 가운데 정답을 골라야 한다.

인간에게는 식은 죽 먹기일지 몰라도 AI에게는 어려운 질문이다. 사람들은 배경지식‧정보를 가지고 있고 상황 맥락 안에서 파악하는 데 익숙하지만, AI 모델은 해당 질문에 정확히 대답하기 위해 전제와 선택지들 사이의 인과관계를 이해해야만 한다.

(사진=마이크로소프트).
(사진=마이크로소프트).

물론 인간의 기준점보다 더 높은 점수를 받은 AI 모델이 DeBERTa가 처음은 아니다. 구글의 ‘T5+Meena’ 모델도 지난 5일 동일한 테스트에서 90.2점을 받아 인간 기준점인 89.8점보다 높은 성적을 거둔 바 있다. 그런데 MS의 DeBERTa 모델이 그 다음날 평균 90.3점을 받으면서 0.1점 차로 구글의 모델을 앞지른 것이다.

MS는 DeBERTa 모델이 구글 T5 모델을 실질적으로 능가해 더 나은 성능을 보인다고 주장한다. 최근 업데이트된 DeBERTa 모델은 15억 개의 매개변수(파라미터)로 구성됐다. 110억 개의 매개변수를 가진 T5 모델에 비해 훈련‧학습과 유지관리 측면에서 훨씬 에너지 효율적이면서 다양한 설정의 앱에 압축하고 사용하기 쉽다는 설명이다.

다만 DeBERTa 모델이 슈퍼글루 평가에서 인간 기준점을 넘어섰다고 해서 인간만큼 똑똑하다는 말은 아니다. 이번 슈퍼글루 결과는 고무적이나, AI 모델의 자연어이해 능력이 인간 수준만큼 도달한 것은 아니라는 게 MS 측의 설명이다. MS는 DeBERTa 모델과 소스 코드를 깃허브(GitHub)를 통해 공개할 예정이라고 밝혔다. 

AI타임스 윤영주 기자 yyj0511@aitimes.com

[관련기사] MS, 오픈AI와 GPT-3 라이센스 계약

[관련기사] GPT3 능가하는 자연어 모델 훈련 알고리즘 등장

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지