최대 26엑사플롭스(EF) 규모의 초고성능 슈퍼컴퓨터를 빌려쓸 수 있게 됐다. 1EF는 1000PF다. 이를 이용하면 어마어마한 규모의 컴퓨팅 파워를 필요로 하는 인공지능(AI) 훈련과 추론 등을 한층 수월하게 진행할 수 있다.
구글은 10일(현지시간) 개최한 연례 구글 I/O 개발자 컨퍼런스에서 고급 인공지능(AI) 모델 개발에 필요한 슈퍼컴퓨팅 인프라를 클라우드 형태로 제공하는 ‘A3 슈퍼컴퓨터’를 출시한다고 발표했다.
구글은 “새로운 A3 슈퍼컴퓨터가 생성 AI와 대규모 언어 모델의 훈련을 위해 특별히 제작됐다"며 “고객은 최대 26EF까지 확장 가능한 슈퍼컴퓨팅 인프라를 대여해 사용할 수 있게 됐다”고 밝혔다.
단일 A3 슈퍼컴퓨터 인스턴스는 8개의 엔비디아 H100 GPU, 4세대 인텔 제온 스케일러블 프로세서, 2TB의 호스트 메모리, NVSwitch 및 NVLink 4.0을 통한 8개 GPU간 3.6TB 양단 대역폭으로 구성된다. 슈퍼컴퓨팅 클라우드에서 제공하는 가상머신(VM) 하나를 인스턴스라고 부른다.
A3 슈퍼컴퓨터 인스턴스는 또한 2만6000개의 상호 연결된 GPU로 확장할 수 있는 구글의 GPU-GPU 인터페이스 ‘IPU(Infrastructure Processing Unit)’를 사용하여 최대 26EF 규모 AI 성능을 제공할 수 있다.
A3 슈퍼컴퓨터는 강력한만큼 차별화된 소프트웨어 서비스도 함께 제공한다. 구글이 대부분의 어려운 작업을 처리하는 완전 관리형 서비스를 원하는 고객은 ‘버텍스 AI(Vertex AI)’에 A3 인스턴스를 구축할 수 있다. 버텍스 AI는 지연 시간이 짧은 서비스 및 고성능 훈련을 위해 특별히 제작된 완벽하게 관리되는 인프라를 기반으로 ML 모델을 구축하기 위한 엔드 투 엔드 플랫폼이다.
직접 자체 맞춤형 소프트웨어 스택을 설계하려는 고객은 ‘구글 쿠버네이츠 엔진(GKE)’ 및 ‘구글 컴퓨트 엔진(GCE)’에 A3 인스턴스를 구축해 최신 기반 모델을 교육하고 서비스하면서 자동 확장, 워크로드 조정 및 자동 업그레이드를 지원할 수도 있다.
새로운 A3 슈퍼컴퓨터를 사용하기 위해서는 미리보기 대기자 명단에 등록해야한다.
박찬 기자 cpark@aitimes.com
