(사진=엔비디아).
(사진=엔비디아).

마이크로소프트(MS)가 클라우드 서비스 '애저' 서버에 엔비디아 암페어 아키텍처 기반 GPU 'A100'을 접목했다. 애저 서버를 슈퍼컴퓨터급 AI 시스템으로 강화한다는 목표다.

HPC와이어는 19일(현지시간) MS가 애저 서버에 엔비디아 A100 암페어 GPU와 AMD 에픽 로마 CPU를 탑재해 1.6Tbps(초당 1.6테라비트 전송)의 HDR 인피니밴드, PCIe4.0 연결을 지원하는 새로운 가상머신(VM) ‘ND A100 v4 VM 시리즈’를 도입했다고 보도했다.

에반 번네스 애저 수석 프로그램 매니저는 "1000억개 이상의 매개 변수와 엑사급 슈퍼컴퓨팅으로 확장할 수 있다"며 "수백개의 VM과 수천개의 엔비디아 GPU를 상호 연결한 대규모 스케일러블 AI VM"이라고 NDv4 VM 시리즈를 소개했다.

MS는 NDv4 VM은 클라우드 서비스로 구축하기 앞서 오픈용 AI 슈퍼컴퓨터를 설계·구축했다. VM 시리즈는 클러스터 내 각 GPU 서버에 28만5000개 이상의 CPU 코어, 1만개 이상의 GPU 및 초당 400기가 네트워크 연결을 지원한다. MS는 머지않아 이 시스템이 슈퍼컴퓨터 랭킹 상위 500위 중 5위 안에 들 것이라고 기대하고 있다.

MS는 엔비디아가 A100 GPU를 출시한 지 불과 4개월 만에 NDv4VM을 통해 애저 클라우드에 도입했다. 전문가들은 이같은 결과는 클라우드로 유입되는 AI와 HPC급 기술의 채택 주기가 빨라지고 있음을 보여주는 셈이라고 평가했다.

MS에 앞서 구글 클라우드는 암페어 출하 후 두 달도 안 돼 A100 GPU를 기반의 A2 VM을 선보였다. 거대 클라우드 기업인 AWS도 A100 GPU를 도입할 예정이다.

MS 애저와 파트너십을 맺고 제품 개발에 협력한 엔비디아 측은 “애저의 A100 인스턴스는 클라우드에서 지금보다 더 큰 스케일로 AI를 가능하게 한다”고 말했다. 또 “새로운 ND A100 v4 VM 시리즈는 하나의 A100 파티션에서 엔비디아 멜라녹스 인터커넥트와 네트워크로 연결된 수천개의 A100 인스턴스로 확장할 수 있다”고 밝혔다.

 

[관련기사] 엔비디아, 암페어 그래픽카드 다음달 1일 공개

[관련기사] IBM, AI 기능 강화한 서버용 CPU '파워10' 공개

키워드 관련기사
  • 세레브라스, '세계 최대 크기의 AI 칩' 슈퍼컴퓨터에 적용
  • VM웨어, AI/ML·데브옵스 도입…'멀티·하이브리드 클라우드' 지원
  • MS-美에너지부, 재난 대응용 AI툴 10~30개 개발