메타가 인공지능(AI) 모델 '라마 4' 시리즈와 관련한 벤치마크 점수 조작 의혹을 공식 부인했다. 일부 온라인 커뮤니티에서 제기된 “성능을 과장하기 위한 조정”이라는 주장에 대해 메타는 “사실무근”이라고 반박했다.
아흐마드 알달레 메타 생성 AI 부문 부사장은 7일(현지시간) X(트위터)를 통해 라마 4 '매버릭(Maverick)'과 '스카우트(Scout)' 모델이 벤치마크 테스트셋을 학습에 사용했다는 의혹에 대해 “전혀 사실이 아니다”고 밝혔다.
그는 “해당 모델들은 테스트셋으로 훈련된 적이 없으며, 이는 명백한 오해”라고 강조했다.
AI 분야에서 테스트셋은 모델이 훈련을 마친 뒤 성능을 검증하기 위해 사용하는 독립적인 데이터셋을 의미한다. 이 데이터를 훈련에 포함하면 실제보다 높은 성능이 측정, 벤치마크 점수가 왜곡될 수 있다.
이번 루머는 지난 주말 X와 레딧 등 커뮤니티를 통해 빠르게 퍼졌다. 발단은 중국의 한 소셜 미디어에 올라온 게시물로, 작성자는 메타의 벤치마킹 관행에 항의하며 회사를 퇴사했다고 주장했다.
특히, LMSYS 아레나에서 좋은 점수를 기록한 매버릭이 일반 사용자에게 공개된 모델이 아닌, 실험적 비공개 버전이라는 점이 논란을 키웠다. 일부 연구자들은 LMSYS에서 테스트된 매버릭과 현재 다운로드 서비스 중인 버전의 성능 차이가 뚜렷하다고 지적하고 있다.
알달레 부사장은 조작 의혹은 부인했지만, 사용자들이 엇갈리는 성능을 경험하는 것은 인정했다. 다양한 클라우드 환경에서 매버릭과 스카우트를 사용하는 과정에서 ‘혼재된 품질(mixed quality)’을 경험하고 있다고 밝힌 것이다.
그는 “모델이 준비되자마자 바로 공개했기 때문에, 모든 퍼블릭 구현이 안정화되는 데에는 며칠이 걸릴 것으로 예상하고 있었다”라고 설명했다. 이어 “버그 수정과 파트너 온보딩을 지속하며 품질 개선을 이어갈 것”이라고 밝혔다.
박찬 기자 cpark@aitimes.com
