메타의 차세대 AI 플랫폼 ‘그랜드 테톤’ (사진=메타)
메타의 차세대 AI 플랫폼 ‘그랜드 테톤’ (사진=메타)

메타가 AI 학습 및 추론을 위한 GPU 기반 데이터 센터 하드웨어 ‘그랜드 테톤(Grand Teton)’을 공개했다.  

더레지스터는 18일(현지시간) 메타가 'OCP(Open Compute Project) 서밋 2022'에서 대규모 AI용 차세대 플랫폼인 ‘그랜드 테톤’을 발표했다고 보도했다. 

메타가 이번에 발표한 '그랜드 테톤'은 데이터 센터에서 대규모 AI 워크로드를 빠르게 처리할 수 있도록 조정한 플랫폼이다. 이전 세대인 '자이온-EX(Zion)' 플랫폼에 비해 4배의 호스트-GPU 대역폭과 2배의 컴퓨팅 및 데이터 네트워크 대역폭 및 2배 향상된 전력 범위를 제공한다. 엔비디아의 플래그십 GPU인 H100  텐서 코어를 사용한다.

그랜드 테톤은 여러 개의 독립적인 하위 시스템으로 구성된 자이온-EX와 달리 섀시를 통합했다.

자이온은 CPU 헤드 노드, 스위치 동기화 시스템 및 GPU 시스템으로 구성되고 모두 외부 케이블을 통해 연결된 반면 그랜드 테톤은 전원, 컴퓨팅 및 패브릭 인터페이스가 통합된 단일 새시로 더 나은 성능, 신호 무결성 및 열 성능을 제공한다. 이 설계는 데이터 센터 통합을 더 쉽게 만들고 안정성을 향상시킨다.

그랜드 테톤과 자이온-EX 사양 비교 (사진=메타)
그랜드 테톤과 자이온-EX 사양 비교 (사진=메타)

그랜드 테톤은 학습을 위해 제타플롭의 컴퓨팅 성능이 필요할 수 있는 DLRM(딥 러닝 추천 모델)과 같은 메모리 대역폭 제한 워크로드를 더 잘 처리하도록 설계됐다. 또한 콘텐츠 이해와 같은 컴퓨팅 바운드 워크로드에 최적화돼 있다.

OCP는 컴퓨팅 성능을 많이 사용하는 소비자가 엔터프라이즈 및 하이퍼스케일 작업에 최적화된 데이터 센터 서버 및 관련 장비에 대한 하드웨어 설계를 공유할 수 있도록 하는 것을 목표로 한다. 즉, OCP는 상호 운용 가능한 장비를 구축하는 경우 사람들이 따르거나 활용할 수 있는 공개 사양, 모범 사례 및 기타 사항의 모음이다.

OCP의 시장 영향은 상당히 미미하다. 기업은 2020년에 OCP 키트에 160억 달러 이상을 지출했으며 이 수치는 2025년까지 460억달러에 이를 것으로 예상된다. 전체 데이터 센터 인프라 시장은 2025년에 약 2300억달러가 될 것으로 예상된다.

메타는 또한 랙 장착형 IT 장비의 배포 및 서비스를 더 쉽게 만드는 것을 목표로 하는 공통 랙 및 전원 아키텍처의 최신 버전인 오픈 랙 v3(ORv3)를 계획하고 있다. ORv3는 랙의 어느 곳에나 설치할 수 있는 전원 선반을 갖추고 있다.

ORv3는 공랭식 액체 냉각 및 시설 수냉식과 같은 다양한 액체 냉각 전략을 수용하도록 설계됐다.

메타의 ORv3 랙 (사진=메타)
메타의 ORv3 랙 (사진=메타)

메타는 "전력 추세가 증가하고 수냉식 발전의 필요성으로 인해 플랫폼, 랙 및 전력, 데이터 센터 설계의 모든 요소에 대해 다르게 생각해야 한다"라고 설명했다. 

박찬 위원 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지