(사진=셔터스톡)
(사진=셔터스톡)

인간처럼 말하는 것으로 잘 알려진 대형언어모델(LLM)은 문법 정확도를 높이기 위해 인간 피드백을 통해 훈련한다. 하지만 이렇게 학습한 LLM도 문법 오류는 잘 잡아내지 못하는 것으로 나타났다.

테크익스플로러는 12일(현지시간) 바르셀로나 자치대학교 등 연구진이 '인간은 문장에서 문법 오류를 즉각적으로 인식할 수 있는 반면, LLM은 사소한 문법 오류도 인식할 수 없다'라는 내용의 연구 논문을 발표했다고 보도했다.

이에 따르면 연구진은 실험에 참여한 사람들과 'GPT-3' 기반의 LLM 2종 및 'GPT-3.5' 기반의 LLM에 여러 다양한 문장이 문법적으로 잘 맞는지 즉석에서 식별하도록 요청했다.

그 결과 인간 참여자들은 대부분 올바르게 대답한 반면, LLM은 많은 오답을 내놓았다. 실제로 LLM은 정답 여부와 상관없이 대부분의 질문에 ‘예’라고 답하는 것으로 나타났다.

빅토리아 덴텔라 바르셀로나 대학 연구원은 “이런 시스템들이 문법적으로 올바른지 여부를 집중 훈련했다는 점을 고려하면 결과는 상당히 놀랍다"라고 말했다.

LLM은 인간 피드백을 통해 문법적으로 잘 맞지 않은 문장의 예제를 받은 다음 올바른 문장을 제공받는 식으로 훈련하기 때문에 문법 오류를 잘 발견할 수 있을 것으로 봤다는 설명이다.

반면 인간은 이런 식의 훈련을 거치는 경우가 드물다. 자라면서 자연스럽게 자국어 문법을 익히는 것이 대부분으로, 경우에 따라 부모로부터 가끔 피드백을 받는 정도에 그친다.

따라서 이 연구는 인간과 AI 간에 '이중 불일치(double mismatch)'가 있다는 것을 보여준다는 설명이다. 인간은 이유는 몰라도 잘 찾아내지만, AI는 인간의 피드백을 통해 훈련했음에도 문법 오류를 찾아내기 어렵다는 것이다.

덴텔라 연구원은 "이런 결과는 AI가 정말로 사람들과 유사한 언어 기술을 가지고 있는지를 비판적으로 바라봐야 한다는 것을 시사한다"며 “현재 단계에서 LLM을 인간 언어 이론으로 해석하는 것은 합당하지 않다”라고 결론내렸다.

이 논문은 지난해 12월13일 미국국립과학원회보(PNAS)에 게재됐다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지