HP 엔터프라이즈(HPE)는 머신 러닝의 AI 추론을 특별히 겨냥한 최초의 서버 제품을 출시할 예정이다.
머신 러닝은 훈련(train)과 추론(inference)의 두 부분의 프로세스로 이루어진다. 훈련은 엔비디아(Nvidia) 및 AMD의 강력한 GPU 또는 기타 고성능 칩을 사용해 AI 시스템에 이미지 인식과 같이 무엇을 찾아야 하는지 ‘가르치는’ 것이다.
주제가 훈련된 모델과 일치하는 경우 추론이 응답한다. GPU는 해당 작업에 과도하며 훨씬 낮은 전력 프로세서를 사용할 수 있다.
네트워크월드(NETWORKWORLD)에 따르면 엣지(Edge)에서 인공지능(AI)을 위해 설계된 퀄컴(Qualcomm)의 Cloud AI100 칩은 최대 16개의 AI 코어가 있으며 추론에 사용되는 FP16, INT8, INT16, FP32 데이터 형식을 지원한다. 이들은 맞춤형 Arm 프로세서가 아니라 추론을 위해 설계된 완전히 새로운 SoC다.
AI100은 컴퓨팅, 스토리지 및 관리를 단일 엣지 장치에 통합하는 HPE Edgeline EL8000 엣지 게이트웨이 시스템의 일부다. 추론 워크로드는 종종 규모가 더 크며 실시간 결과를 가능하게 하기 위해 낮은 대기 시간과 높은 처리량을 요구하는 경우가 많다.
HPE Edgeline EL8000은 이중 이중화 섀시 통합 스위치를 사용하여 클러스터링된 최대 4개의 독립 서버 블레이드를 지원하는 5U 시스템이다. HPE Edgeline EL8000t는 2개의 독립적인 서버 블레이드를 지원하는 2U 설계다.
성능 외에도 Cloud AI100은 전력 소모가 적다. PCI Express 카드와 마더보드에 장착된 듀얼 M.2 칩의 두 가지 폼 팩터로 제공된다. PCIe 카드는 75와트의 최대 허용 전력을 가지고 있는 반면 2개의 M.2 폼 팩터 장치는 15와트 또는 25와트를 소비한다. 일반적인 CPU는 200와트 이상, GPU는 400와트 이상을 소비한다.
퀄컴은 Cloud AI 100이 ONNX, 텐서플로우(TensorFlow), 파이토치(PyTorch) 및 카페(Caffe)를 포함한 모든 주요 산업 표준 모델 형식을 지원한다고 밝혔다. 퀄컴은 맞춤형 작업 지원을 포함하여 모델 이식 및 준비를 위한 일련의 도구를 보유하고 있다.
퀄컴은 Cloud AI100이 제조/산업 고객은 물론 엣지 AI 요구 사항이 있는 고객을 대상으로 한다고 말한다. 엣지에서 AI 추론 컴퓨팅의 사용 사례에는 컴퓨터 비전 및 자연어 처리(NLP) 워크로드가 포함된다.
컴퓨터 비전의 경우 여기에는 제조, 물체 감지 및 비디오 감시, 손실 방지 및 감지의 품질 관리 및 품질 보증이 포함될 수 있다. NLP의 경우 프로그래밍 코드 생성, 스마트 보조 작업 및 언어 번역이 포함된다.
Edgeline 서버는 8월 말에 HPE GreenLake를 통해 구매 또는 임대할 수 있다.
AI타임스 박찬 위원 cpark@aitimes.com
[관련기사]엣지 AI를 위한 아날로그 프로세서 등장
