(사진=SWE-벤치)
(사진=SWE-벤치)

인공지능(AI) 모델의 코딩 성능을 측정하는 데 널리 쓰이는 벤치마크가 신뢰성 문제를 안고 있다는 지적이 나왔다. 메타 연구진이 최근 'SWE-벤치 베리파이드(SWE-bench Verified)' 벤치마크에서 여러 AI 모델이 사실상 편법을 사용했다고 경고했다.

메타 AI 연구소 FAIR의 매니저 제이콥 칸은 지난주 깃허브에 올린 글에서 “SWE-벤치 베리파이드에서 다수의 허점을 확인했다”라고 밝혔다.

이 벤치마크는 인간 검증을 강조하며 신뢰성 높은 벤치마크로 평가받아 왔으며, 이 점수는 모델이 실제 소프트웨어 개발 과제를 수행할 능력을 보여주는 지표로 활용해왔다.

그러나 FAIR 연구진은 일부 모델들이 내장된 코딩 능력으로 문제를 해결한 것이 아니라, 깃허브에 공유된 기존 해결책을 검색해 가져오는 방식으로 성능을 속여 높은 점수를 획득했다고 주장했다.

이런 행태가 적발된 모델에는 앤트로픽의 '클로드 소네트 4', 중국 지푸 AI의 'GLM-4.5', 알리바바의 '큐원3-코더-30B-A3B' 등이 포함됐다. 이들의 공식 점수는 각각 70.4%, 64.2%, 51.6%였다.

SWE-벤치 베리파이드는 깃허브에 존재하는 수백건의 실제 소프트웨어 문제를 활용해 AI 모델의 수정 능력을 평가하는 벤치마크다. 그러나, 이번 사태로 인해 평가 과정에서 데이터 누출(data leakage)이 발생했을 가능성이 드러났으며, 결과적으로 점수가 모델의 실제 역량을 보여주기보다는 단순히 검색과 복사에 의존한 결과일 수 있다는 의문이 제기되고 있다.

칸 연구원은 “평가 결과와 데이터 누출 경로에 대한 영향을 여전히 분석 중”이라며 이번 사례가 평가 방식 전반에 어떤 파장을 미칠지 주시하고 있다고 밝혔다.

AI 모델이 점차 고도화되며 벤치마크의 한계도 잇달아 도마에 오르고 있다. 새로운 모델이 벤치마크 데이터를 집중 학습해 높은 점수를 얻는 ‘데이터 누출’나 평가 방식을 파고들어 점수를 올리는 ‘보상 해킹(reward hacking)’ 등이 대표적이다. 이로 인해 특정 벤치마크 점수가 모델의 실제 유용성을 설명하지 못하는 ‘벤치마크 포화(benchmark saturation)’ 현상도 지적되고 있다.

프린스턴대 연구원이자 SWE-벤치 공동 개발자인 카를로스 히메네스는 "현재 문제 해결 작업이 진행 중"이라며 “남아 있는 이슈를 디버깅 중이며, 곧 개선된 버전을 배포할 예정”이라고 밝혔다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지