엔비디아 A100 GPU(그래픽처리장치)가 아마존웹서비스(AWS)의 최신 서버에 탑재됐다. 

AWS는 머신러닝과 HPC(고성능컴퓨팅)를 위해 마련한 EC2 P4d 인스턴스에 8개의 엔비디아 A100 GPU를 채택했다.

A100을 장착한 EC2 P4d는 400Gbps 네트워킹을 제공해 머신러닝 모델 훈련 시간을 최대 6배 단축한다. A100은 최근 진행된 MLPerf 벤치마크에서 CPU대비 237배 빠른 성능을 보였다. (관련기사 = 엔비디아 최신 MLPerf 추론 결과 1위…단점은 가격·크기 )

인스턴스란?
AWS는 클라우드 서비스로 고객들에게 서버를 제공한다. AWS가 고객들에게 제공하는 서버를 '인스턴스'라고 말한다.

AWS는 범용, 컴퓨팅 최적, 메모리 최적, 가속화된 컴퓨팅, 스토리지 최적 등 다양한 EC2 인스턴스 서비스를 제공한다. 서비스에 따라 EC2 A1, EC2 T4g, EC2 M5 등으로 불린다.

엔비디아는 AWS의 새로운 EC2 P4d 인스턴스에 엔비디아 A100 텐서코어(Tensor Core) GPU가 탑재된다고 3일 밝혔다.

EC2 P4d 인스턴스는 머신러닝 훈련과 HPC 애플리케이션을 위해 최고 성능의 A100 GPU 기반 플랫폼을 지원한다. 

기본 FP32 정밀도 대비 각각 FP16에서 최대 3배, T432에서 머신러닝 모델 훈련 시간을 최대 6배 단축한다. 또한 P4d 인스턴스는 탁월한 추론 성능을 제공한다. 지난달 MLPerf 추론 벤치마크에서 엔비디아 A100 GPU는 CPU 대비 최대 237배 빠른 성능을 보였다.

(이미지=엔비디아)
P4d 인스턴스 (이미지=엔비디아)

엔비디아에 따르면, 각각의 P4d 인스턴스는 8개의 엔비디아 A100 GPU로 구동된다. 

AWS 울트라클러스터즈를 통해 고객은 AWS EFA(Elastic Fabric Adaptor)를 사용해 한번에 4000개 이상의 GPU에 대한 확장가능한 온-디맨드 액세스를 얻을 수 있다. 

P4d는 400Gbps 네트워킹을 제공하고, NV링크(NVLink), NV스위치(NVSwitch), NCCL, GPUDirect RDMA 등의 엔비디아 기술을 통해 딥 러닝 훈련 워크로드를 더욱 가속화한다. 

AWS EFA를 통한 엔비디아 GPUDirect RDMA 기술로 CPU와 시스템 메모리를 통과하지 않고도 서버 간 GPU에서 GPU로 데이터를 전송해 낮은 레이턴시(지연시간) 네트워킹을 보장한다.

P4d 인스턴스는 다양한 AWS 소프트웨어를 활용하며 최적화된 컨테이너형 소프트웨어를 모두 활용할 수 있다.

P4d는 현재 미국 동부와 서부에서 사용할 수 있으며, 이용가능 지역이 곧 추가될 예정이다.

AWS는 10년전 엔비디아 M2050과 함께 GPU 인스턴스를 출시했다. 당시는 AI과 딥러닝이 부상하기 전으로, 쿠다(CUDA) 기반 애플리케이션은 주로 과학 시뮬레이션을 가속화하는데 사용됐다. 

이후 AWS는 K80, K520, M60, V100, T4를 탑재한 GPU 인스턴스를 추가했다.

[관련기사] 오라클, 퍼블릭 클라우드 환경에서 HPC 성능 제공

[관련기사] [박정현의 데이터사이언스 시작하기] ②데이터 종류 및 관련 용어

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지