(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI) 스타트업 하이퍼라이트가 “세계 최고 오픈 소스 모델”이라며 출시한 ‘리플렉션 70(Reflection 70B)’의 성능에 대해 허위 의혹이 제기되며 논란이 일고 있다.

벤처비트는 9일(현지시간) 하이퍼라이트가 오픈 소스 대형언어모델(LLM) ‘리플렉션 70B’를 출시하면서 발표한 성능 중 일부가 실제 성능과 차이가 있다고 보도했다.

하이퍼라이트는 지난 6일 12만8000 토큰 컨텍스트 창을 제공하는 700억 매개변수의 LLM ‘리플렉션 70B’를 오픈 소스로 출시했다.

리플렉션 70B는 메타의 '라마 3.1-70B 인스트럭트' 모델을 미세조정해 구축했다. 또 성능 향상을 위해 추론 과정에서 발생한 오류를 스스로 감지하고 최종 응답을 내리기 전에 오류를 수정할 수 있는 '반사 튜닝(Reflection Tuning)' 기술을 적용했다.

하이퍼라이트는 리플렉션 70B가 멀티태스크 추론(MMLU)와 코딩(HumanEval)을 포함한 벤치마크 6개 항목에서 메타의 '라마 3.1 405B'를 모두 능가했다며, “역대 최고 성능의 오픈 소스 LLM”이라고 주장했다. 심지어 'GPT-4o'와 '제미나이'를 모두 뛰어 넘었으며, '클로드 3.5 소네트'에는 4개 분야에서 앞섰다고 주장했다.

아티피셜 애널리시스의 자체 MMLU 밴치마크 결과 (사진=아티피셜 애널리시스)
아티피셜 애널리시스의 자체 MMLU 밴치마크 결과 (사진=아티피셜 애널리시스)

그러나 AI 모델 호스팅 분석 업체인 아티피셜 애널리시스는 모델을 분석, 하이퍼라이트의 발표와는 다른 결과를 공개했다.

X(트위터)를 통해 "분석 력과, 리플렉션 70B가 MMLU 벤치마크에서 라마 3 70B와 같은 점수이고 라마 3.1 70B보다 크게 낮다"라고 밝혔다. 또 다른 분야에서는 GPT-4o, 제미나이 1.5 프로, 클로드 3.5 소네트보다 낮은 점수를 기록한 것으로 나타났다.

이에 대해 하이퍼라이트는 해명에 나섰지만, 그마저도 납득이 가기 어려운 내용이다;

맷 슈머 하이퍼라이트 CEO는 “업로드하는 과정에서 모델이 엉망이 됐기 때문"이라며 “이 문제로 인해 하이퍼라이트의 내부 API 버전보다 품질 성능이 떨어질 수 있다”고 밝혔다.

아티피셜 애널리시스는 내부 API 버전에 대해서도 테스트했지만, 하이퍼라이트가 초기 주장한 수준은 아니었다라고 다시 반박했다.

이 외에도 머신러닝 및 AI 관련 레딧 커뮤니티에서는 리플렉션 70B의 성능과 출처에 대한 의문이 제기됐다.

일부 사용자는 리플렉션 70B가 라마-3.1 모델이 아닌, 라마 3 모델을 기반으로 구축된 것으로 보인다고 지적했다.

특히 메가미 보슨이라는 X 사용자는 "AI 연구 커뮤니티에서의 사기"라고 공개적으로 비난했다.

다른 X 사용자들은 이 모델이 앤트로픽의 클로드 3 위에 구축된 래퍼(wrapper) 또는 애플리케이션이라고 비난했다.

반면, 자체 분석 결과를 게시하며 슈머와 리플렉션 70B를 옹호하는 일부 상ㅇ자들도 등장했다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지