구글의 이미지 에디터 '제미나이 2.5 플래시'는 이례적으로 출시 이전부터 인기를 얻었습니다.
이 모델이 '나노 바나나'라는 이름으로 사용자 선호도 측정 사이트 LM아레나에 등장하자, 사용해 본 사람들의 폭발적인 반응이 나왔습니다. 그리고 사용자들의 추측대로 구글의 모델이라는 것이 밝혀지자, 역시 멀티모달모델은 구글이 최강이라는 점이 다시 확인됐습니다.
가명으로 모델을 LM아레나에 올리고 사용자 반응을 떠본 것은 구글이 처음은 아닙니다. 오픈AI는 지난 2024년 5월 'gpt2-챗봇(gpt2-chatbot)’이라는 모델을 여기에 선보여 화제가 됐습니다. 당시에는 이 모델이 'GPT-4.5'가 아니냐는 추측이 나왔는데, 결국 'GPT-4o'로 밝혀졌습니다,
xAI도 올해 초 '초콜릿(Chocolate)'이라는 이름의 모델로 1위를 차지한 바 있습니다. 이는 세계에서 가장 똑똑하다는 '그록-3'였습니다. 또 메타는 실제 '라마 4'와는 다른 모델을 여기에서 테스트해 좋은 성적을 거뒀다는 조작설에 휩싸이기도 했습니다.
이처럼 LM아레나는 이제 주요 AI 회사들이 핵심 모델을 출시하기 전 거치는 필수 코스가 됐습니다.
또 이 사이트는 최근 월간 활성 사용자(MAU) 300만명을 돌파한 것으로 밝혀졌습니다. 지난 4월 MAU는 100만명이었습니다.
불과 4개월 만에 사용자가 3배로 늘어난 것입니다. 특히 나노 바나나가 화제를 모았던 지난달에는 트래픽이 직전보다 10배로 늘어났다고 밝혔습니다. '진정한 승자는 LM아레나'라는 말이 나올 정도입니다.
벤치마크 무용론이 등장하는 현재, 벤치마크가 모델을 정식 출시 전부터 스타로 만든 이례적인 사례입니다. 또 딱히 주목받지 못했던 벤치마크를 대중의 관심으로 끌어들인 주인공이기도 합니다.
LM아레나는 지난 2023년 초 UC버클리 스카이 컴퓨팅 연구소에서 대학생들의 연구 프로젝트로 시작됐습니다.
당시 프로젝트를 주도했던 대학원생 웨이린 치앙은 최근 비즈니스 인사이더와의 인터뷰에서 "챗GPT에 이어 라마가 등장하자, 사람들이 어떤 모델이 더 뛰어난지 또 차이점은 무엇인지를 매우 궁금하게 생각했다"라고 말했습니다. 당시의 벤치마크 도구로는 모델에 대한 충분한 정보를 얻기 어려웠다는 설명입니다.
그래서 고안해 낸 방법이 사용자들에게 직접 반응을 묻는 방식이었습니다. 이름을 가린 최신 AI 모델 2대에 같은 프롬프트를 입력한 뒤 출력을 비교해 우수한 쪽에 투표하는 것입니다. 출범 당시 이 사이트의 이름은 '챗봇아레나'였습니다.
현재 LM아레나의 최고 기술책임자(CTO)가 된 치앙은 이런 방식이 많은 사람들의 관심을 얻었다고 밝혔습니다, 등장하자마자 몇주 동안 수만명이 투표했다는 것입니다.
이를 바탕으로 모델 순위를 매기는 리더보드를 시작했다고 합니다. 당시에는 대부분 오픈 소스 모델이 주를 이뤘고, 독점 모델은 'GPT-4'와 '클로드'뿐이었습니다.
그러나 현재 LM아레나를 거친 모델은 400개가 넘습니다. 또 텍스트 결과 비교를 넘어, 수십개의 세부 항목으로 확장했습니다. 이미지와 동영상은 물론, 최근에는 웹데브(WebDev)라는 벤치마크를 출시했습니다. 여기에서는 모델을 사용해 웹사이트 프로토타입을 제작할 수 있습니다. AI의 코딩 능력과 에이전트 기능을 테스트하는 것입니다.
치앙 CTO는 이것이 벤치마크의 미래라고 강조했습니다. 실제 사용자, 특히 AI 도구를 사용하는 전문가가 주도하는 벤치마크를 추구한다는 것입니다.
그는 LM아레나를 더 많은 산업으로 확장하겠다고 전했습니다. "더 많은 산업에 이런 벤치마크가 광범위하게 적용되기를 바라며, 수집된 데이터를 통해 모델을 측정하고 차이를 메우는 데 도움을 주고 싶다"라는 것입니다. 즉, 산업 도메인별 모델 테스트를 준비 중인 것으로 보입니다.
물론, 이 사이트도 문제가 없는 것은 아닙니다. 사용자들이 몰려들자, 모델 테스트에 필요한 컴퓨팅 비용이 크게 늘어났습니다.
하지만, 얼마 전까지 이 사이트는 외부 지원 없이 모든 비용을 자체 충당했습니다. 이 때문에 메타로부터 돈을 받고 벤치마크를 조작했다는 오해도 샀습니다.
대학 프로젝트를 넘어 정식 사업체가 된 것은 자연스러운 일로 볼 수 있습니다. 치앙 CTO는 프로젝트 자문 교수이자 과거 데이터브릭스와 애니스케일 등 다수의 기술 회사를 설립한 이온 스토이카 등과 지난 4월 회사 출범을 선언했습니다.
그리고 바로 다음 달인 5월에는 앤드리슨 호로비츠와 UC 인베스트먼트가 주도한 시드 투자 라운드에서 기업 가치 6억달러(약 8370억원)로 1억달러를 유치하는 데 성공했습니다.
LM아레나는 벤치마크를 넘어, 기업에는 마케팅 도구로, 사용자들에게는 새로운 모델에 대한 최신 정보를 얻는 사이트로 발전하고 있습니다.
특히, 랭킹 시스템이 사용자들에게 어떤 영향을 미치는지는 굳이 설명이 필요없을 듯 합니다. 이 사이트는 AI 업계의 '빌보드'나 '박스 오피스'가 된 것으로 볼 수 있습니다.
이어 4일 주요 뉴스입니다.
■ "구글의 검색 데이터 공유, AI 기업들 이득 얻기는 쉽지 않을 것"
법원 판결로 구글이 검색 사용자 데이터를 외부에 공유하게 됐지만, 이를 제대로 활용하는 것이 만만치 않다는 분석입니다. 엄청난 비용과 시스템, 노하우 등이 필요하기 때문입니다. 실제 오픈AI나 퍼플렉시티에 어떤 영향을 줄지 주목됩니다.
■ 노트북LM 팟캐스트 형식 지정하는 '톤 조정' 도입
구글이 이번에는 노트북LM의 팟캐스트 생성을 조절하는 조치를 더 했습니다. 분석을 강화하거나 요약에 집중하도록 구분하는 것은 물론, 톤을 비판적으로 조정하거나 논쟁이 벌어지도록 유도할 수 있습니다. 이 프로그램은 진화를 거듭하고 있습니다.
■ "애플, 시리용 AI 웹 검색 도구 내년 출시...챗GPT와 경쟁 예상"
시리가 챗GPT나 퍼플렉시티와 같은 AI 검색 기능을 갖추게 된다는 소식입니다. 이를 위해 구글의 모델을 테스트 중이라는 것입니다. 구글도 잠재적으로 경쟁 대상이라는 점이 아이러니합니다.
AI타임스 news@aitimes.com
