(사진=X, xAI)
(사진=X, xAI)

일론 머스크 CEO는 지난 17일(현지시간) 출시한 '그록-3'를 "세계에서 가장 똑똑한 챗봇"이라며, 근거로 벤치마크 결과를 줄줄이 공개했습니다. 벤치마크 결과만 보면, 그록-3의 성능이 가장 뛰어나다는 데 이견을 달 수는 없을 것입니다.

그러나 이번에는 좀 다릅니다. 기술 보고서나 세부적인 내용 공개는 전혀 없이 벤치마크만 늘어놓자, 좋은 모델인 것은 알겠는데 이게 과연 세계 최고인지 확신할 수 없다는 것입니다.   

실제로 오픈AI나 구글, 앤트로픽의 프론티어 모델이 등장하면, 대부분은 '와우 포인트'가 있었습니다. 그런데 그록-3는 이 점이 없습니다. 한마디로 좋다는 것은 알겠는데, 특별할 것은 없다는 식입니다.

그리고 벤치마크에만 의존하는 발표에 대한 불만도 나왔습니다. 직설적으로 벤치마크가 쓸데없다고 지적한 것입니다.

대표적인 인물이 유명 AI 평론가인 에단 몰릭 펜실베이니아대학교 와튼스쿨의 교수입니다. 그는 “그록-3가 일부 벤치마크에서 기존 오픈AI 모델을 능가하지만, 'o3'를 뛰어넘지는 못한다”라고 단정했습니다. 한술 더 떠 "공개 벤치마크는 '맛이 갔고' 포화 상태"라며 "AI 테스트는 이제 맛집 리뷰 정도의 수준이 됐다"라고 비난했습니다.

즉, 벤치마크가 성능 분석이 아닌, 마케팅 도구처럼 사용된다는 말입니다.

이런 벤치마크 논란은 지난해 초에도 한번 이슈가 됐습니다. 당시 많은 기업들이 'GPT-4'를 따라잡았다는 증거로 벤치마크 결과를 내세웠지만, 실제 그런지는 의문이었기 때문입니다.

특히, 벤치마크는 챗GPT 등장 이전에는 일부 연구자들이나 언급하던 것인데 AI 붐으로 인해 인기 순위처럼 바뀌었고, 대부분 등장한 지 몇년 지난 것이라 테스트 데이터 자체가 많이 노출됐다는 것이 문제였습니다. 즉, 시험 문제를 미리 공부한 모델을 테스트하는 게 무슨 의미가 있느냐는 것입니다.   

그래서 허깅페이스도 리더보드를 시즌 2로 업그레이드했습니다. 또 이때부터 인간이 두 챗봇을 직접 테스트하고 선호하는 쪽에 투표하는 방식의 '챗봇아레나'가 인기를 끌었습니다. 즉, 최소한 '기출 문제' 논란에서는 피할 수 있었습니다.

(사진=X, xAI)
(사진=X, xAI)

그러나 이제는 초점이 좀 바뀌었습니다. 1년 전에는 시험 문제가 오래됐다는 것이 문제였다면, 이제는 벤치마크가 과연 실용성을 반영하느냐가 핵심입니다. 실제 벤치마크 문제들은 현실에서 그리 중요하지 않은 고급 상식이나 수학, 전문 지식을 테스트합니다. 이는 모델을 실제로 사용하며 느끼는 유용성과는 좀 거리가 있습니다.

물론 난이도가 낮으면 낮다고, 높으면 높다고 지적받는 대학수학능력시험과 비슷합니다. 벤치마크 유용성 논란은 영원한 논쟁거리로 남을 것입니다.

그렇다고 벤치마크를 무시할 수는 없습니다. 벤치마크가 없다면 모델에 대한 정보를 얻는 것이 더 어려워질 뿐입니다. 대안이 나온다고 해도, 금방 익숙해지고 올드하게 느껴질 수 있습니다. 마케팅 도구에 불과하다는 지적도 해결할 근본적인 방법은 없습니다. 

그러나 이번 모든 논란의 핵심은 그록-3에 인상적인 부분이 없다는 것입니다. 결국 이 문제는 xAI가 논문이나 기술 보고서를 내놓아야 해결될 것으로 보입니다.

또, 그록-3가 높게 평가되는 부분도 많습니다. 특히, 엄청난 인프라를 투입해 모델 출시 주기를 앞당겼다는 점은 상당한 강점으로 꼽힙니다. 또 이를 통해 어느 정도 스케일링 법칙이 아직 어느 정도 통했다는 것을 입증했다는 것도 긍정적으로 평가받습니다. 

무엇보다 xAI도 오픈 소스 정책을 펴고 있어, 언젠가는 그록-3도 무료로 풀리면 기술 커뮤니티에 도움이 됩니다.

이처럼 그록-3는 모델 성능이 아닌 부분에서 좋은 평가를 받고 있습니다.

이어 19일 주요 뉴스입니다.

전남에 세계 최대 3GW AI 데이터센터 건설..."최대 50조 투자"

LG 창업주 손자가 포함된 미국 벤처 투자사가 전라남도와 대규모 데이터센터를 설립하는 MOU를 맺은 것으로 알려졌습니다. 이 정도 규모면 GPU 수만장이 투입될 것으로 보이는데, 과연 제대로 실행될지 주목됩니다.  

(사진=메타)
(사진=메타)

메타, AI 전문 컨퍼런스 '라마콘' 신설

메타가 4월에 AI 컨퍼런스를 신설합니다. 최근 AI 관련 발표가 부쩍 늘어나는 상황이라, 기존 메타버스 위주의 '커넥트' 행사와 이를 분리하겠다는 것입니다. 특히 행사 시점에 맞춰 '라마 4'를 출시할지 관심입니다.

“오픈AI ‘딥 리서치’, 인간 일자리 대체하는 최초의 AI 될 수 있어”

인간처럼 웹과 문서를 탐색하고 추론으로 지식을 고도화하는 딥 리서치가 일부 직군에서 매우 유용할 수 있으며, 실제 활용될 가능성이 높다는 내용입니다. 특히, 비용 대비 성능이 뛰어나 인간 대체 효과가 확실하다는 뜻입니다.

AI타임스 news@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지