(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI) 칩 스타트업 삼바노바가 추론 성능 벤치마크에서 초당 1000개 토큰 처리 속도를 기록했다고 발표했다. 이는 기존 세계 기록인 '그로크(Groq)'의 초당 800 토큰 처리 속도를 뛰어넘는 세계 최고 기록이다.

벤처비트는 29일(현지시간) 삼바노바가 아티피셜 어낼리시스의 대형언어모델(LLM) 벤치마크에서 초당 1000개 이상의 토큰을 처리하는 추론 성능으로 새로운 기록을 세웠다고 보도했다.

이에 따르면 ‘삼바-1 터보’에서 메타의 ‘라마3 8B 인스트럭트’ 모델을 실행한 결과, 16비트 정밀도로 초당 1084개 토큰 출력 속도를 기록했다. 이는 기존 세계 기록이었던 그로크의 초당 800 토큰 출력 속도를 능가하는 것이며, 벤치마크 전체 평균 출력 속도보다 8배 이상 빠른 수치다.

삼바-1 터보은 지난 2월 출시한 1조개 이상의 매개변수를 갖춘 LLM ‘삼바-1’의 API 버전이다. 독립적으로 훈련된 56개의 모델을 조합, 프롬프트와 요청에 따라 최적 모델을 라우팅하는 ‘전문가 구성(CoE)’ 아키텍처를 특징으로 한다. 

삼바-1은 하드웨어를 포함한 풀스택 프레임워크 형태로 제공되며, 온프레미스는 물론 프라이빗 클라우드에서 사용할 수 있다.

56개의 모델에는 '라마 3' '미스트랄' '팰컨' '디플롯' '클립' '라바' 등 유명 오픈 소스 모델이 대부분 포함되며, 삼바노바가 개발한 AI 칩 ‘SN40L’에서 구동된다.

삼바-1 터보 (사진=삼바노바)
삼바-1 터보 (사진=삼바노바)

성능의 핵심은 기존 GPU와 차별화되는 SN40L의 ‘RDU(Reconfigurable Dataflow Unit)’ 기술이라고 주장했다. 

GPU의 경우, 제한된 온칩 메모리 용량으로 인해 GPU와 메모리 간에 데이터 전송이 자주 발생하기 때문에 GPU의 컴퓨팅 활용도가 크게 저하된다.

하지만 RDU는 패턴 메모리 유닛(PMU)을 통해 대규모 분산 온칩 메모리 풀을 제공한다. 이 PMU들은 연산 유닛 가까이에 위치해 있어 데이터 이동의 필요성을 최소화함으로써 효율성을 크게 향상한다는 설명이다.

또 GPU는 신경망 모델을 커널 단위로 실행한다. 각 레이어의 커널이 로드돼 실행되고, 그 결과는 다음 레이어로 이동하기 전에 메모리에 반환된다. 이 지속적인 컨텍스트 전환과 데이터 이동으로 인해 대기 시간이 늘어나고 활용도가 낮아진다.

반면 RDU는 컴파일러 매핑을 통해 개별 신경망 레이어 및 커널에 대한 리소스 할당을 최적화할 수 있어, 과도한 메모리 액세스 없이 활성화가 레이어를 통해 원활하게 흐를 수 있어 성능이 크게 향상할 수 있다고 전했다.

또 GPU에서 대규모 모델을 처리하려면 모델을 여러 GPU로 분할하는 복잡한 모델 병렬 처리가 필요한 경우가 많다. 이 프로세스는 복잡할 뿐만 아니라 전문적인 프레임워크와 코드도 필요하다. 삼바노바의 RDU 아키텍처는 시스템에서 여러 RDU를 매핑할 때 데이터 및 모델 병렬 처리를 자동화하여 수동 개입을 제거한다. 이런 자동화는 프로세스를 단순화하고 최적의 성능을 보장한다고 강조했다.

다만 조지 카메론 아티피셜 어낼리시스 공동 창업자는 “그로크의 초당 800토큰 기록은 퍼블릭 클라우드 API 엔드포인트의 결과인 반면, 삼바노바는 전용 프라이빗 엔드포인트의 결과”라며 “두 결과를 직접적으로 비교하는 것은 적절하지 않다”고 지적했다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지