삼바노바가 1초 만에 330개의 토큰을 처리하는 획기적인 인공지능(AI) 모델을 출시했다고 주장했다. 데이터브릭스가 '오픈 소스' 최강 성능이라는 ‘DBRX’를 출시한 지 하루 만에, 이를 뛰어넘었다는 설명이다.
DBRX는 단일 모델을 사용하는 대신 '전문가 혼합(MoE)' 방식으로 여러 모델 중 일부만을 사용해 효율을 높이는 방식인데, 삼바노바 역시 소형모델 여러개 중 쿼리에 맞춰 필요한 모델만 '라우팅'하는 방식을 사용했다는 것이 특징이다.
벤처비트는 28일(현지시간) AI 칩 제조 전문 삼바노바가 지난달 공개한 LLM '삼바-1'을 기반으로, '삼바-CoE(Samba-CoE) v0.2'이라는 LLM을 구축했다고 보도했다. 이 모델은 자체 AI 칩인 RDU 8개와 함께 제공되는 '삼바노바 스위트' 플랫폼에서 작동한다.
삼바노바는 X(트위터)를 통해 "삼바-CoE v0.2는 초당 330토큰 처리의 엄청난 속도로 데이터브릭스의 DBRX, 미스트랄AI 의 '믹스트랄 8x7B', xAI의 'Grok-1'보다 뛰어난 성능을 발휘한다"라며 "이는 8소켓에서만 작동, 정밀도를 희생하지 않고 엄청난 속도를 달성했다"라고 밝혔다.
삼바-1은 56개의 오픈 소스 모델로 구성된 1조 매개변수의 LLM이다. 단일 대형모델이 아닌, 독립 모델 조합이기 때문에 사용자의 프롬프트에 맞춰 필요한 모델만 연결하는 MoE 아키텍처다. 이 때문에 기존 대형모델을 통째로 움직이는 것에 비해 비용과 시간을 아낄 수 있다.
특히 이번에는 필요 모델을 연결할 때 576개의 소켓을 사용하던 기존 방식에서 진화, 8개의 소켓만을 활용하고도 정확도를 유지해 LLM 작동 시간을 단축했다는 설명이다. 삼바-CoE v.02는 7B 크기의 오픈 소스 모델 5개로 이뤄져 있다.
이런 까닭에 v0.2는 벤치마크에서 은하계에 대한 질문에 대해 1초 만에 330.42개의 토큰을 처리, "눈이 부시도록 빠르게" 응답을 생성했다고 밝혔다. 또 양자 컴퓨팅에 관한 질문에서는 1초에 332.56개의 토큰을 전달했다고 덧붙였다.
이는 구글 '젬마-7B', 미스트랄의 믹스트랄 8x7B, 메타의 '라마 2 70B', 알리바바의 '큐원-72B', 데이터브릭스의 DBRX 132B, xAI의 그록-1 314B 등보다 뛰어난 성능을 보였다고 밝혔다. 또 알파카 리더보드에서는 GPT-4나 클로드 3 등 대형모델에 이어 11위를 차지했다.
원래 삼바-1에는 '라마 2' '미스트랄' '팰컨' '디플롯' '클립' '라바' 등 유명 오픈 소스 모델이 대부분 포함됐다. 삼바노바는 추후 공개할 v0.3과 v0.4 모델에서는 7B 모델 4개와 34B 모델 한개를 조합, 성능을 더 끌어올릴 예정이다.
즉 높은 비트 전송률을 유지하면서 더 적은 수의 소켓을 사용, 컴퓨팅 효율과 모델 성능 두마리 토끼를 잡겠다는 의도다.
삼바노바는 지난 2017년 맞춤형 AI 칩 제조업체로 시작한 업체다. 처음에는 GPU의 대안으로 '재구성 가능한 데이터 흐름 장치', 즉 RDU 칩을 출시하며 기업 가치 50억달러(약 6조7000억원)를 돌파했다.
이어 지난해 기업용 AI 모델 교육 및 개발, 배포 등이 가능한 '삼바노바 스위트'라는 플랫폼을 출시하며 빠르게 확장했다. 삼바-1은 그 결과로 내놓은 첫 LLM이다.
한편 데이터브릭스도 DBRX 모델을 내놓으며 LLM 기업으로 확장을 시도 중이다.
또 데이터브릭스의 라이벌인 스노우플레이크도 비슷하게 데이터 플랫폼에서 AI 클라우드 플랫폼으로 변환하고 있다.
지난해 모자이크 ML이라는 유망 오픈 소스 모델 스타트업을 인수한 뒤 LLM 앱 구축을 위한 서비스 스노우 '플레이크 코텍스'를 구축하고, 구글 딥마인드 출신 연구원들이 설립한 레카의 모델과 미스트랄 모델을 서비스 중이다.
박찬 기자 cpark@aitimes.com
