인공지능(AI) 스타트업 하이퍼라이트가 “세계 최고 오픈 소스 모델”이라며 출시한 ‘리플렉션 70(Reflection 70B)’의 성능에 대해 허위 의혹이 제기되며 논란이 일고 있다.
벤처비트는 9일(현지시간) 하이퍼라이트가 오픈 소스 대형언어모델(LLM) ‘리플렉션 70B’를 출시하면서 발표한 성능 중 일부가 실제 성능과 차이가 있다고 보도했다.
하이퍼라이트는 지난 6일 12만8000 토큰 컨텍스트 창을 제공하는 700억 매개변수의 LLM ‘리플렉션 70B’를 오픈 소스로 출시했다.
리플렉션 70B는 메타의 '라마 3.1-70B 인스트럭트' 모델을 미세조정해 구축했다. 또 성능 향상을 위해 추론 과정에서 발생한 오류를 스스로 감지하고 최종 응답을 내리기 전에 오류를 수정할 수 있는 '반사 튜닝(Reflection Tuning)' 기술을 적용했다.
하이퍼라이트는 리플렉션 70B가 멀티태스크 추론(MMLU)와 코딩(HumanEval)을 포함한 벤치마크 6개 항목에서 메타의 '라마 3.1 405B'를 모두 능가했다며, “역대 최고 성능의 오픈 소스 LLM”이라고 주장했다. 심지어 'GPT-4o'와 '제미나이'를 모두 뛰어 넘었으며, '클로드 3.5 소네트'에는 4개 분야에서 앞섰다고 주장했다.
그러나 AI 모델 호스팅 분석 업체인 아티피셜 애널리시스는 모델을 분석, 하이퍼라이트의 발표와는 다른 결과를 공개했다.
X(트위터)를 통해 "분석 력과, 리플렉션 70B가 MMLU 벤치마크에서 라마 3 70B와 같은 점수이고 라마 3.1 70B보다 크게 낮다"라고 밝혔다. 또 다른 분야에서는 GPT-4o, 제미나이 1.5 프로, 클로드 3.5 소네트보다 낮은 점수를 기록한 것으로 나타났다.
이에 대해 하이퍼라이트는 해명에 나섰지만, 그마저도 납득이 가기 어려운 내용이다;
맷 슈머 하이퍼라이트 CEO는 “업로드하는 과정에서 모델이 엉망이 됐기 때문"이라며 “이 문제로 인해 하이퍼라이트의 내부 API 버전보다 품질 성능이 떨어질 수 있다”고 밝혔다.
아티피셜 애널리시스는 내부 API 버전에 대해서도 테스트했지만, 하이퍼라이트가 초기 주장한 수준은 아니었다라고 다시 반박했다.
이 외에도 머신러닝 및 AI 관련 레딧 커뮤니티에서는 리플렉션 70B의 성능과 출처에 대한 의문이 제기됐다.
일부 사용자는 리플렉션 70B가 라마-3.1 모델이 아닌, 라마 3 모델을 기반으로 구축된 것으로 보인다고 지적했다.
특히 메가미 보슨이라는 X 사용자는 "AI 연구 커뮤니티에서의 사기"라고 공개적으로 비난했다.
다른 X 사용자들은 이 모델이 앤트로픽의 클로드 3 위에 구축된 래퍼(wrapper) 또는 애플리케이션이라고 비난했다.
반면, 자체 분석 결과를 게시하며 슈머와 리플렉션 70B를 옹호하는 일부 상ㅇ자들도 등장했다.
박찬 기자 cpark@aitimes.com
