4대 인공지능(AI) 기업인 오픈AI와 앤트로픽, 구글, 메타의 첨단 대형언어모델(LLM)에 대한 부문별 벤치마크 테스트 점수를 종합한 순위가 나왔다. 새로운 벤치마크를 실시한 것이 아니라 각 사가 별도로 공개한 수치를 한군데 모아 비교한 것으로, 최근 이런 시도는 처음이다.
마크테크포스트는 8일(현지시간) 2024년에 수행된 각종 벤치마크 결과를 토대로 멀티태스크 추론(MMLU), 코딩 정확도(HumanEval), 수학적 능숙도(MATH), 지연 시간 등 13개 지표에 대한 오픈AI, 앤트로픽, 구글, 메타의 LLM 순위를 공개했다.
그 결과 압도적인 1위는 나오지 않았다.
'클로드 3.5 소네트'는 코딩, 안전성, 장문 콘텐츠 생성 등 6개 부문에서 1위를 차지했다. 이어 'GPT-4o'가 멀티태스크 추론, 수학적 능력, 다국어 성능 등 4개 부분 정상에 올랐다.
하지만 이번 벤치마크의 승리자는 오픈 소스인 '라마 3.1 405B'로 볼 수 있다. 비용과 지연시간에서 최고를 기록했으며, 나머지 부분에서도 정상과 큰 차이가 나지 않았다.
반면, 구글은 경량 모델인 '제미나이 1.5 플래시'가 비교 대상이라 두각을 나타내지 못했다. 이는 '제미나이 2.0'이 나오기 전까지는 어쩔 수 없는 일이다.
그만큼 프론티어 모델의 경쟁이 갈수록 치열해졌다는 사실을 다시 확인한 셈이다.
■ 멀티태스크 추론(MMLU) 부문
MMLU 벤치마크는 과학, 인문학, 수학을 포함한 다양한 주제에서 질문에 답하는 AI 모델의 능력을 평가하는 포괄적인 테스트다. 이 분야에서 최고의 성과를 내는 모델들은 다양한 실제 과제를 처리할 수 있는 다재다능함을 입증한다.
오픈AI의 GPT-4o는 88.7%의 점수로 MMLU에서 선두를 차지했다. GPT-4의 강점을 기반으로 일반적인 작업을 수행할 수 있도록 설계됐으며, 학술 및 전문 분야에서 다재다능한 모델로 평가받고 있다.
메타의 라마 3.1 405B가 88.6%로 바로 뒤를 쫓았다. 경량화 아키텍처임에도 불구하고 다양한 분야에서 경쟁력 있는 정확성을 유지하면서도 효율적인 성능을 발휘하도록 설계됐다.
앤트로픽의 클로드 3.5 소네트는 88.3%의 성적으로 3위에 그친 것이 의외다.
■ 코딩(HumanEval) 부문
클로드의 최강점이 코딩이라는 것을 감안하면 이변은 없었다. 휴먼이벨 벤치마크는 여러 프로그래밍 작업에서 모델이 정확한 코드를 생성하는 능력을 평가하는 테스트다.
클로드 3.5 소네트는 92%의 정확도로, 2위인 GPT-4o(90.2%)를 앞섰다.
여기에서도 라마 3.1 405B가 분발했다. 89%의 점수로, GPT-4o와 1.2%밖에 차이가 나지 않았다.
■ 수학(MATH) 부문
MATH 벤치마크는 복잡한 수학 문제를 해결하고 수치 개념을 이해하는 LLM의 능력을 테스트한다. 이러한 기술은 금융, 공학, 과학 연구 애플리케이션에서 매우 중요하다.
최근 '스트로베리' 등 추론 능력강화 기술에 집중해 온 오픈Ai가 역시 선두를 차지했다. GPT-4o는 76.6%의 점수로 선두다. 3위도 'GPT-4 터보'다.
라마 3.1 405B는 73.8%로 엔트로픽이나 구르을 제치고 2위에 올랐다. 이는 수학이 중요한 산업에서 더 가볍지만 효과적인 대안으로서의 잠재력을 보여준다. 메타는 논리적 추론과 수치 정확성이 요구되는 작업에서 우수한 성과를 내기 위해 아키텍처 최적화에 많은 투자를 했다.
■ 지연 시간(Latency) 부문
지연 시간은 챗봇이나 가상 비서와 같은 실시간 애플리케이션에서 모델이 얼마나 빠르게 응답을 생성하는지를 나타내며, 매우 중요한 요소다. TTFT(Time to First Token) 벤치마크는 AI 모델이 프롬프트를 받은 후 첫번째 토큰을 출력하기까지의 속도를 측정한다.
라마 3.1 8B는 0.3초의 지연 시간으로 탁월한 성능을 발휘하며, 응답 시간이 중요한 애플리케이션에 이상적이다.
'GPT-3.5 터보'는 0.4초의 성능을 보여주며, 속도와 정확성의 균형을 맞추고 있다. 빠른 상호작용을 우선시하면서도 이해력이나 복잡성을 크게 희생하지 않는 개발자들에게 경쟁력을 제공한다.
라마 3.1 70B 역시 0.4초의 지연 시간을 기록, 메타가 응답 시간 최적화에 많은 투자를 했음을 보여줬다.
■ 비용(Cost) 부문
AI 개발 비용이 민감해지면서, 비용 효율성은 LLM을 운영에 통합하려는 기업들에 핵심 요소다.
라마 3.1 8B는 사용 비용이 입력 토큰 100만개당 0.05달러와 출력 토큰 100만개당 0.08달러로 가장 높은 비용 효율성을 제공한다.
구글의 '제미나이 1.5 플래시'가 가장 돋보인 것도 이 부분이다. 입력 0.07달러와 출력 0.3달러 요금으로 제공된다. 또 큰 컨텍스트 창을 지원해 상세한 분석과 대용량 데이터 처리 능력이 필요한 기업에 적합하다.
이들을 따라잡기 위해 내놓은 'GPT-4o 미니'는 입력 0.15달러와 출력 0.6달러로 3위에 올랐다.
■ 컨텍스트 창(Context Window) 부문
LLM의 컨텍스트 창은 응답을 생성할 때 한번에 처리할 수 있는 입력 텍스트의 양을 정의한다. 컨텍스트 창이 큰 모델은 법률 문서 분석, 학술 연구, 고객 서비스 등 장문 생성 애플리케이션에서 필수적이다.
제미나이 1.5 플래시는 100만 토큰 처리로, 이 분야의 압도적 선두다. 전체 책, 연구 논문 또는 대규모 고객 서비스 로그를 입력하더라도 컨텍스트가 끊기지 않고, 대규모 텍스트 생성 작업에 대한 유용성을 제공한다.
클로드 3 및 3.5는 20만 토큰 처리로 2위, GPT-4 터보와 GPT-4o 계열은 12만8000 토큰으로 3위다. 특히 최근에는 12만8000 토큰 제공이 기본으로 떠오르고 있다.
■ 사실 정확성(Factual Accuracy) 부문
사실 정확성은 LLM이 의료 진단, 법률 문서 요약, 학술 연구와 같은 지식 중심 작업에서 점점 더 많이 사용됨에 따라 중요한 지표가 됐다. AI 모델이 환각을 유발하지 않고 사실적 정보를 기억하는 정확도는 신뢰성에 직접적인 영향을 미친다.
클로드 3.5 소네트는 사실 확인 테스트에서 약 92.5%의 정확도로 뛰어난 성과를 보였다. 앤트로픽은 검증된 정보를 기반으로 효율적이고 신뢰할 수 있는 모델을 구축하는 데 중점을 두어, 윤리적 AI 애플리케이션에 필수적인 요소로 작용하고 있다.
GPT-4o는 90%의 정확도로 뒤를 따른다. 오픈AI의 방대한 데이터셋은 GPT-4o가 최신의 신뢰할 수 있는 정보 출처에서 데이터를 추출하도록 도와주며, 연구 중심의 작업에서 특히 유용하다.
라마 3.1 405B는 88.8%의 정확성을 달성하였으며, 이는 메타가 데이터셋을 정제하고 모델의 기반을 개선하는 데 지속적으로 투자한 결과다. 그러나 비교적 덜 알려지거나 특수한 주제에 대해 어려움을 겪는 것으로 알려져 있다.
■ 정렬(Alignment) 부문
정렬 지표는 모델의 출력 결과가 사전 정의된 윤리적 지침과 얼마나 잘 일치하는지를 평가한다. 즉, 안전성과 직결된다. 이 분야는 앤트로픽의 특기이기도 하다.
역시 클로드 3.5 소네트가 91%의 점수로 1위를 차지했다. 오픈AI도 GPT-4o의 89.5%로 많이 추격했다.
여기에서 라마 3.1 405B는 87.7%의 점수를 받아 3위에 오른 것도 주목된다.
■ 적대적 프롬프트에 대한 안전성 부문
정렬성 외에도, LLM은 모델이 유해하거나 편향된, 비논리적인 출력을 생성하도록 설계된 공격적인 프롬프트에 저항해야 한다.
이 분야도 1위는 클로드 3.5 소네트(93%)다. GPT-4o는 90%로 약간 뒤처졌으며, 라마 3.1 405B는 88%의 점수를 기록했다.
■ 다국어 부문
전 세계적으로 LLM 수요가 높아지며, 다국어 능력도 비중이 커졌다. 비영어권 언어에서 일관성 있고 정확하며 문맥을 이해한 응답을 생성하는 능력을 평가한다.
GPT-4o는 XGLUE 다국어 벤치마크에서 92%를 기록하며 다국어 능력에서 압도적인 성능을 보였다. 오픈AI의 다양한 언어, 방언, 지역적 문맥에 대한 미세조정이돋보인다는 분석이다.
클로드 3.5 소네트는 89%로 자원이 부족한 언어에서는 오픈Ai에 비해 성능이 다소 덜어진다.
라마 3.1 405B는 86%로 스페인어나 중국어, 프랑스어와 같이 널리 사용되는 언어에서 강한 것으로 알려졌다.
■ 지식 보유 및 장문 생성 부문
대규모 콘텐츠 생성에 대한 수요가 증가함에 따라, LLM의 지식 보유 및 장문 생성 능력은 연구 논문 작성, 법률 문서 작성, 그리고 연속적인 컨텍스트를 유지하며 긴 대화를 수행하는 능력을 평가한다.
클로드 3.5 소네트는 95%의 점수로 최고 자리를 차지했다. 20만 토큰의 높은 용량을 통해, 컨텍스트를 잃지 않고 고품질의 장문 콘텐츠를 생성할 수 있다.
GPT-4o는 92%다. 100만 토큰의 컨텍스트 창 덕분에 광범위한 문서나 대규모 데이터셋을 한번에 분석할 수 있는 제미나이 1.5 플래시가 91%다.
■ 제로 및 퓨샷 학습 부문
실제 시나리오에서 LLM은 종종 유사한 작업에 대한 명시적인 학습 없이 응답을 생성하는 제로샷이나 제한된 작업 특정 예제만으로 퓨샷 작업을 수행해야 한다.
GPT-4o는 제로샷 학습에서 88.5%의 정확도로 최고의 성과를 보였다. 클로드 3.5 소네트는 86%, 라마 3.1 405B는 84%이다.
■ 편견 및 독성 출력 부문
LLM의 윤리적 고려 사항, 특히 편향을 최소화하고 독성 출력을 피하는 것이 점점 더 중요해지고 있다.
이 분야도 앤트로픽의 강점이 돋보였다. 클로드 3.5 소네트는 93%의 점수로 윤리적으로 가장 정렬된 LLM으로 인정받고 있다.
이어 GPT-4o가 91%, 라마 3.1 405B이 89%로 뒤를 이었다.
박찬 기자 cpark@aitimes.com
