언테더가 2페타플롭의 AI 추론 성능과 와트당 30테라플롭 성능의 새로운 AI 추론 칩 ‘보케리아(Boqueria)’를 출시했다.(사진=언테더 AI)
언테더가 2페타플롭의 AI 추론 성능과 와트당 30테라플롭 성능의 새로운 AI 추론 칩 ‘보케리아(Boqueria)’를 출시했다.(사진=언테더 AI)

1400개 이상의 최적화된 RISC-V 프로세서를 탑재한 '보케리아(Boqueria)'라는 새로운 AI 추론 칩이 나왔다.

캐나다의 스타트업 언테더(Untether) AI는 핫칩스(Hot Chips 34) 컨퍼런스에서 FP8(8비트 부동 소수점) 연산에서 2페타플롭(초당 2억개의 연산)으로 최고의 AI 추론 성능을 기록한 RISC-V 아키텍처 기반의 보케리아 칩을 발표했다고 HPCwire와 포브스(Forbes)가 29일(현지시간) 보도했다. 이 칩은 또한 100와트 백열 전구보다 낮은 전력 소비로 와트당 30테라플롭을 수행한다.

RISC-V는 명령어의 개수를 줄이고 구조를 단순화시킨 축소된 명령어 세트 아키텍처(RISC) 기반 개방형 명령어 집합(ISA)이다. 오픈소스 개념을 채택해 누구나 자유롭게 RISC-V 칩과 소프트웨어를 설계, 제조, 판매할 수 있다.  RISC-V 칩은 ARM 칩과 비교해서 비슷한 성능으로는 칩 면적이 30%~50%가 줄어들고 소비 전력은 60%나 감소하는 상당한 높은 효율을 보인다.

보케리아는 2020년에 출시되어 500테라플롭의 성능과 와트당 8테라플롭의 효율성을 제공한 이전 AI 칩인 RunAI보다 전반적으로 개선된 것이다. 언테더 AI는 업계 표준 AI 벤치마크로 부상하고 있는 MLPerf에서 성능 및 와트당 성능에 대한 벤치마크가 비교 가능한 칩보다 성능이 우수하다고 말했다. 

로버트 비치러(Robert Beachler) 제품 담당 부사장은 "추론에서는 가능한 한 효율적으로 작업을 수행하고 올바른 데이터 유형을 사용해 정확성을 보장하면서도 동일한 관점에서 에너지 효율성을 제공하고 싶어한다"라고 말했다.

데이터 이동을 최소화하는 ‘메모리 컴퓨팅(at-memory computing)’이라는 새로운 아키텍처로 효율적이고 지연 시간이 짧은 고성능 추론 가속기 칩 ‘보케리아’를 설계했다.(사진=언테더 AI) 
데이터 이동을 최소화하는 ‘메모리 컴퓨팅(at-memory computing)’이라는 새로운 아키텍처로 효율적이고 지연 시간이 짧은 고성능 추론 가속기 칩 ‘보케리아’를 설계했다.(사진=언테더 AI) 

언테더 AI는 데이터 이동을 최소화하는 ‘메모리 컴퓨팅(at-memory computing)’이라는 새로운 아키텍처로 효율적이고 지연 시간이 짧은 고성능 추론 가속기 칩을 설계했다. 이를 달성하기 위해 Untether AI는 1400개 이상의 RISC-V 프로세서 코어의 수십만 개의 온칩 처리 요소에 메모리를 직접 연결하고 AI 모델 가중치(weights)와 계수(coefficients)를 바로 인접한 온칩 메모리에 저장한다. 이 모든 데이터를 칩에 유지하면 보케리아 칩과 오프칩 메모리 간에 데이터를 이동할 필요가 줄어들고 필요한 계산을 수행하는 데 필요한 전력량이 크게 줄어든다.

비치러는 “AI 추론 가속을 위한 설계자와 처음 만났을 때 신경망 컴퓨팅을 수행하는 데 필요한 에너지의 90%가 외부 메모리나 내부 캐시에서 데이터를 이동하는 데 있다는 것을 처음 알았다. 그리고 단지 10%만이 실제로 컴퓨터에서 수행된다”라고 말했다.

보케리아에는 729개의 메모리 뱅크가 있으며 각 메모리 뱅크에 대해 1.3GHz에서 실행되는 2개의 RISC-V CPU 코어가 있다. 각 코어는 전용 메모리가 있기 때문에 페타바이트 정도의 메모리 대역폭을 제공한다. 

보케리아는 기존 CPU의 추가 AI 가속기 역할을 하도록 설계되었으며 PCI-Express 카드를 통해 CPU에 연결된다. 2페타플롭스의 컴퓨팅 가속이 충분하지 않거나 하나의 보케리아 칩의 온칩 메모리가 신경망을 유지하기에 충분하지 않은 경우, 보케리아 칩을 데이지 체인 방식으로 연결하여 처리할 수 있다.  

단일 PCI-Express 카드에 최대 6개의 칩을 연결하여 대규모 자연어 처리 네트워크를 실행할 수 있다. 6칩 PCI 카드는 400와트의 전력을 소비하지만 일반적인 워크로드는 200~300와트 범위에서 실행된다.

언테더 AI는 또한 훈련된 AI/ML 모델을 보케리아 칩에서 사용하도록 변환하는 자동화된 소프트웨어 체인을 개발했다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]테슬라, 엑사플롭 AI 슈퍼컴퓨터 ‘도조(Dojo)’ 공개

[관련기사]中 스타트업 바이렌, GPU 시장 경쟁 가세

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지