고가의 GPU나 클라우드 서비스를 사용하는 대신, 애플의 최신 'M4' 칩이 탑재된 맥미니 등을 여러대를 연결해 로컬로 인공지능(AI) 모델을 실행할 수 있는 도구가 등장했다.
스타트업 엑소 랩스는 12일(현지시간) X(트위터)를 통해 오픈 소스 소프트웨어 도구 '엑소(exo)'를 공개했다.
알렉스 치마 엑소 CEO는 엑소를 이용해 4대의 맥 미니 M4와 1대의 맥북 프로 M4 맥스를 연결, 알리바바의 코딩 모델 '큐원 2.5 코더-32B'를 실행하는 모습을 선보였다. 개인도 집에서 활용할 수 있는 '분산 컴퓨팅'의 개념이다.
특히 이 클러스터를 구축하기 위해 들어간 비용은 약 5000달러(약 700만원)로, 엔비디아 'H100' GPU 한장(약 3500만~4200만원)보다 훨씬 싸다.
큐원 2.5 코더-32B를 초당 18토큰, 엔비디아의 '네모트론-70B' 모델을 초당 8토큰으로 실행할 수 있다. 이전에는 'M3'를 탑재한 맥북 프로 두대를 연결해 메타의 '라마 3.1-405B' 모델을 초당 5토큰 이상으로 실행한 경험도 있다고 밝혔다.
치마 CEO는 "기업용 소프트웨어는 아직 개발 중이지만, 이미 여러 회사들이 우리의 소프트웨어를 활용해 AI 추론을 위한 로컬 컴퓨팅 클러스터를 운영하고 있다"라며 "이 기술은 개인에서 기업으로 확산될 것"이라고 말했다.
특히 개인정보 보호 문제를 해결하고 비용 절감을 고려하는 기업이 클라우드 인프라에 의존하지 않고 AI 훈련 및 추론 작업을 효율적으로 처리할 수 있게 한다는 점에서 주목받고 있다. 정식 기업용 제품은 내년에 출시될 예정이다.
현재는 깃허브에서 다운로드해 사용할 수 있다.
한편, 엑소는 기술 채택을 촉진하기 위해 다음 주에 무료 벤치마킹 웹사이트를 개설할 예정이다. 이 사이트는 단일 장치와 다중 장치 구성에 대한 상세한 비교를 제공하며, 사용자가 자신에게 적합한 LLM 실행 솔루션을 찾는 데 도움을 준다.
박찬 기자 cpark@aitimes.com
