(사진=셔터스톡)
(사진=셔터스톡)

오픈AI가 인공지능(AI) 모델의 환각에 대한 입장을 정리, 발표했다. 이 가운데 현재 모델 성능을 측정하는 벤치마크가 대형언어모델(LLM)의 환각 현상을 부추기고 있다고 지적했다.

오픈AI는 5일(현지시간) 홈페이지를 통해 '언어모델이 환각을 보이는 이유'라는 연구 결과를 발표했다.

모델 환각의 근본적인 해결책을 발견했다는 내용은 아니다. LLM은 학습한 내용을 바탕으로 다음에 등장할 토큰을 추측하는 자기회귀적 아키텍처의 한계를 가지고 있다고 밝혔다. 

대신, 오픈AI는 환각이 지속되는 부분적인 이유로 "현재 평가 방법이 잘못된 인센티브를 설정하기 때문"이라고 밝혔다. 

즉, 모델 출시 때 성능을 보여주기 위해 실시하는 벤치마크에 관한 것이다. "평가 자체가 환각을 직접 유발하는 것은 아니지만, 대부분 평가는 답이 불확실하더라도 추측을 부추기는 방식으로 모델 성능을 측정한다"라고 지적했다.

즉, 현재 벤치마크는 모델이 답이 없다고 하면 0점을 주지만, 대충 추측하면 운이 좋아서 맞을 수도 있다는 것이다. 따라서 "모델의 정확도를 정답률로만 평가하면 '모르겠다'라고 답하기보다는 추측하도록 유도된다"라고 전했다.

실제로 최근 프론티어 모델의 성능이 상향 평준화되고 엄청나게 많은 모델이 등장하며, 벤치마크의 비중은 점점 더 커지고 있다. 

이런 분위기에서, 모델 개발사들이 응답 거부가 많은 모델을 내놓기는 어려운 상황이라는 것이다. 따라서 벤치마크 방식을 바꾸는 것이 현실적이라는 지적이다. 

오픈AI도 지난달 블로그 게시물을 통해 앤트로픽의 '클로드'가 "자신의 불확실성을 더 잘 인지하고 부정확한 진술을 하는 것을 피하는 경우가 많다"라고 칭찬했다. 하지만, 클로드의 높은 응답 거부율이 유용성을 제한할 위험이 있다고도 지적했다.

이런 문제의 해결책으로 "불확실성보다 자신감 있는 오류에 더 큰 감점을 주고, 불확실성을 적절하게 표현한 부분에는 부분 점수를 부여하는 것"을 들었다. 물론, 이는 새로운 아이디어가 아니며, 연구가 계속 이뤄지고 있다.

나아가 벤치마크 채점 방식이 추측을 배제하도록 업데이트돼야 한다고 주장했다. 채점 방식을 수정하면, 새로운 모델 개발 시 환각 감소 기술을 채택할 확률이 높아진다는 것이다.

이번 발표는 GPT-5가 큰 성능 개선에도 불구, 일부 벤치마크에서 기존 모델보다 떨어지는 벤치마크 성적을 내놓은 데 따른 것으로 보인다. 

실제로 이번에 출시한 'GPT-5-씽킹-미니'는 'o4-미니'보다 성능이 뛰어나다. 그러나 정확도 측면에서는 o4-미니가 약간 더 나은 결과가 나오며, 대신 오류율(환각 발생률)이 상당히 높다. 이는 답이 불확실한 상황에서 추측을 강화하면 정확도는 조금 향상하지만, 오류와 환각 발생률이 증가한다는 것을 보여주는 예다.

(사진=오픈AI)
(사진=오픈AI)

이어 LLM의 환각은 질문에 따라 완전히 제거할 수도, 그러지 못할 수도 있다고 전했다.

오픈AI는 모델의 학습 데이터에 포함된 모든 콘텐츠에 참인지 거짓인지를 나타내는 라벨이 붙은 것은 아니라고 지적했다. 따라서 LLM 은 "언어의 유창한 면만 보고 비슷한 답을 유추해야 한다"라고 밝혔다.

또 개나 고양이 등의 사진을 학습한 모델은 패턴을 학습해 둘을 구분하는 데 능숙해질 수 있지만, 개나 고양이의 생일로 라벨링한 데이터에서는 사진으로 생일 패턴을 추출하는 것이 사실상 불가능하다는 것이다. 따라서 이런 식의 질문에서는 필연적으로 환각이 일어날 수밖에 없다고 지적했다. 

오픈AI는 이번 연구 결과를 발표한 것에 대해 "환각의 본질을 명확히 하고 일반적인 오해를 해소하는 데 도움이 되기를 바란다"라고 이유를 밝혔다.

우선, LLM의 정확도를 향상하면 환각이 사라질 것이라는 주장에 대해서는 "정확도가 100%에 도달하는 것은 불가능하다"라고 밝혔다. '신은 있는가'와 같은 일부 질문은 본질적으로 답할 수 없기 때문이라는 것이다.

반대로 환각이 불가피하다는 주장도 틀렸다고 지적했다. 위에서 주장한 바와 같이 답이 불확실하면, 이를 회피해야 한다는 것이다.

또 데이터와 컴퓨팅을 더 많이 투입해 큰 모델을 만드는 것이 환각을 해결하는 궁극적인 방법은 아니라고 밝혔다. 차라리 작은 모델이 '모른다'라는 한계를 파악하기 더 용이하다는 것이다. 큰 모델은 정확하지 않은 답에 대해서도 신뢰도를 판단해야 하므로 많은 계산을 사용하고도 제대로 된 답을 내놓지는 못한다는 것이다.

오픈AI는 "우리의 최신 모델은 환각률을 낮췄다"라며 "우리는 LLM이 출력하는 확실한 오류율을 더 낮추기 위해 계속해서 노력하고 있다"라고 강조했다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지