세레브라스, 딥시크 R1 호스팅...."추론 속도 엔비디아보다 57배 빨라"

박찬 기자
업데이트 2025.02.02 18:23
입력 2025.02.02 18:12
댓글 0

이 기사를 공유합니다

세레브라스 서비스는 미국 서버에, 딥시크 서비스는 중국 서버에 데이터가 저장된다는 것을 강조한 이미지 (사진=세레브라스)

미국의 반도체 스타트업 세레브라스가 '딥시크-R1'을 서비스한다고 밝혔다. 특히, 자체 제작한 칩에서 R1이 엔비디아 GPU보다 최대 57배 빠른 추론 속도를 보이며, 데이터를 중국으로 전송하지 않는다고 강조했다.

세레브라스는 29일(현지시간) '딥시크-R1-증류-라마-70B(DeepSeek R1-Distill-Llama-70B)'을 미국 서버에서 호스팅한다고 발표했다.

세레브라스는 "추론 모델은 AI 확장의 다음 단계를 나타내지만, 확장된 추론 체인은 전통적으로 GPU 하드웨어에서 몇분의 컴퓨팅 시간이 필요하다"라며 "하지만 우리의 플랫폼은 GPU에서 몇분이 걸리는 추론 프롬프트를 몇초만에 처리, 애플리케이션의 속도를 극적으로 증가한다"라고 말했다.

이번 출시는 최근 딥시크의 인기에 편승하려는 움직임이다. 이미 데이터브릭스와 마이크로소프트, 아마존 등이 딥시크 모델을 호스팅하고 있다.

하지만 세레브라스는 조금 다르다. 이 회사는 엔비디아 GPU 대신, 자체 개발한 '웨이퍼 스케일 엔진(WSE)' 프로세서를 활용한 인공지능(AI) 추론 전용 서비스를 제공한다. 추론 모델은 비용이 많은 드는 것으로 유명한데, 이럴수록 세레브라스의 플랫폼이 빛을 발할 수 있기 때문이다.

이미 지난해 11월에는 '라마 3.1 405B'를 초당 969 토큰 속도로 실행, GPU 기반 AI 서비스보다 무려 75배 빠른 세계 신기록을 세웠다고 발표한 바 있다.

또 이번 서비스는 단순한 R1 호스팅이 아니다. '증류' 과정을 거쳐 최적화된 라마 모델을 온프레미스로 자체 구축한 것이 특징이다. 이에 따라 모델 사용 정보가 미국 데이터센터에서 처리되며, 데이터를 중국으로 전송하거나 보관하는 일은 없다고 강조했다.

속도 면에서는 여전히 최고 수준의 결과를 보여 줬다.

이 회사의 웨이퍼-스케일 칩을 탑재한 '세레브라스 추론(Cerebras Inference)' 플랫폼을 통해 모델을 실행한 결과, 초당 1796토큰의 출력 속도를 기록했다고 밝혔다.

1.5초만에 답을 낸다는 것으로, 이는 같은 프로프트를 실행할 경우 22초가 걸린 오픈AI 'o1-미니'보다 15배 빠른 속도다.

또 추론 전문 칩 경쟁사인 그로크보다 6배 빠른 것은 물론, 엔비디아 GPU 기반인 딥인프라나 노비타보다는 57배 빠르다고 강조했다.

제임스 왕 세레브라스 수석 이사는 벤처비트와의 인터뷰에서 "추론 모델은 앞으로 지식 근로자를 위한 기본적인 워크플로우에 포함될 것"이라며 "경제 전반에 영향을 미칠 것"이라고 예측했다.

이어 "지금 인기 있는 딥시크의 API를 사용하면 데이터가 중국으로 바로 전송되며, 이는 많은 기업이 가장 피하려는 일"이라며 세레브라스는 이 문제를 해결할 수 있다고 밝혔다.

박찬 기자 cpark@aitimes.com