(사진=셔터스톡)
(사진=셔터스톡)

허깅페이스가 지난주 대표적인 대형언어모델(LLM) 벤치마크인 '오픈 LLM 리더보드' 새 버전을 공개했습니다. 

기존의 ▲추론(ARC) ▲상식(HellaSwag) ▲언어이해력(MMLU) ▲환각방지능력(TruthfulQA) 등 항목을 무두 없애고, 대신 ▲멀티태스크 언어 이해(BBH) ▲복잡한 수학 능력(MATH Lvl 5) ▲전문분야 지식(GPQA) 등 새로운 항목으로 교체했습니다. 난이도가 대폭 올랐다는 것이 특징입니다.

새로운 평가 방식에 따라 순위는 대폭 물갈이됐습니다. 기존 상위권 모델은 대부분 사라지고, 대신 알리바바의 '큐원'이나 메타의 '라마3' 등이 상위권에 올랐습니다. 즉 벤치마크에 최적화된 모델 대신, 일반적으로 성능이 뛰어나다는 평가의 모델이 살아남은 것입니다.

(사진=허깅페이스)
(사진=허깅페이스)

이번 벤치마크의 변화는 지난해 말부터 꾸준한 문제 제기에 따른 것입니다. 모델 성능은 가파르게 발전하는 데, 테스트 수단은 몇년 전과 변하지 않았다는 지적이 나왔습니다. 클레멘트 델랑 허깅페이스 창립자도 "이제까지는 고등학생에게 중학 수준 문제로 테스트한 것 같았다"라고 밝혔습니다.

이번 변화로 그동안 상위권을 차지했던 국내 기업들은 일단 상위권에서는 내려왔습니다. 국내 모델 중 100위 안에 포함된 것은 업스테이지 '솔라' 정도입니다.

국내 기업들은 허깅페이스 리더보드를 통해 인지도 확보에 도움을 받았습니다. 뛰어난 미세조정 실력으로 다시 정상권에 근접할 수 있을지 관심입니다.

한편, 국내의 한국어 LLM 리더보드도 새 평가 항목이 추가될 예정입니다. 이에 따른 순위 변동도 주목됩니다.

비전 모델 능력 평가하는 '멀티모달 아레나' 출시..."GPT-4o가 1위"

인간 선호도 평가로 유명한 '챗봇 아레나'에 멀티모달모델 성능을 평가하는 벤치마크가 추가됐습니다. 역시 GPT-4o와 클로드 3.5 소네트, 제미나이 1.5 프로 등이 상위권을 차지했습니다.

아마존, AI 에이전트 스타트업 어뎁트 창립자 영입

최근 AI 올인을 선언한 아마존이 유망 스타트업 어뎁트의 창립자와 주요 개발진을 영입했습니다. 마이크로소프트-인플렉션의 사례와 비슷하다는 지적입니다. 각국 규제 당국이 어떻게 대응할지 관심입니다. 

저커버그 "폐쇄형 AI 기업들, '신'을 창조한다고 착각하는 듯"

마크 저커버그 메타 CEO가 오픈AI나 구글 등에 쓴소리를 날렸습니다. AGI 개발한다면 너무 폼을 잡는다는 지적입니다. 이 발언은 앙숙인 일론 머스크 CEO도 좋아했을 것 같습니다.

(사진=유튜브 캡처)

크라우드웍스 "자체 구축 고품질 데이터는 확실한 시장 가치 있어"

국내 데이터 전처리 대표 기업인 크라우드웍스가 자체 개발한 데이터셋에 구매 문의가 몰리는 것으로 확인됐습니다. 데이터의 중요성은 설명이 더 필요없을 듯합니다. 

AI타임스 news@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지