메타, '라마 3' 훈련용 GPU 클러스터 공개..."클러스터당 'H100' 2만5000개 투입"

박찬 기자
입력 2024.03.13 18:00
댓글 0

이 기사를 공유합니다

메타가 세계 최대 규모의 인공지능(AI) 컴퓨팅 인프라를 공개했다. 클러스터당 2만5000개에 달하는 최고급 GPU를 투입, 차세대 AI 모델을 개발 중이라고 밝혔다.

메타는 12일(현지시간) 블로그를 통해 AI 모델 훈련을 지원하는 두개의 새로운 데이터 센터 규모 GPU 클러스터를 공개했다.

이에 따르면 새로운 클러스터는 자연어 처리, 음성 인식, 이미지 생성 등의 AI 연구 개발을 지원하기 위해 구축으며, 각 클러스터에는 모두 2만4576개의 엔비디아 텐서 코어 'H100' GPU가 포함되어 있다. 이는 1만6000개의 엔비디아 'A100' GPU가 포함된 기존 클러스터에 비해 크게 증가한 것이다.

메타는 새로운 클러스터에서 '라마 3'를 포함한 차세대 AI 모델을 훈련하고 있다고 밝혔다. 메타는 구체적인 정보를 공개하지 않았지만, 현재 라마 3 훈련이 진행 중이라고 확인했다.

특히 메타는 장기적으로 일반인공지능(AGI) 구축을 위해 클러스터를 확장하고 있다고 강조했다. 마크 저커버그 메타 CEO는 지난 1월 총 60만개의 엔비디아 H100에 해당하는 컴퓨팅 성능을 제공하기 위해 2024년말까지 35만개의 H100을 추가할 계획이라고 말했다.

GPU 수는 동일하지만, 두 클러스터의 네트워크 인프라는 다르다. 하나는 아리스타 7800 기반 'RoCE 이더넷 패브릭'을 사용하고, 다른 하나는 엔비디아 '쿼넘2 인피니밴드 패브릭'을 사용했다. 둘 다 400Gbps의 엔드포인트 상호 연결을 제공한다.

또 두 클러스터 모두 대규모 AI 워크로드를 지원하기 위해 메타가 자체 설계한 개방형 GPU 하드웨어 플랫폼 '그랜드 티톤(Grand Teton)'을 사용해 구축됐다.

'자이온-EX' 플랫폼의 후속인 이 플랫폼은 이전과 비교해 호스트-GPU 대역폭이 4배, 컴퓨팅 및 데이터 네트워크 대역폭이 2배, 전력 엔벨로프가 2배 증가했다. 그랜드 티톤을 사용하면 메타가 애플리케이션용으로 특별히 제작된 새로운 클러스터를 구축할 수 있다.

또 그랜드 티톤과 같은 솔루션을 지원하고 데이터 센터 환경에 더 큰 유연성을 제공하도록 특별히 설계된 메타의 오픈 랙(Open Rack) 아키텍처를 사용한다.

이 밖에도 수십만건의 GPU 훈련을 준비할 수 있도록 자사의 파이토치(PyTorch) 기반 AI 프레임워크를 계속해서 발전시키고 있다고 강조했다.

메타는 “어제나 오늘 효과가 있었던 것이 내일에는 충분하지 않을 수 있다는 것을 인식한다. 이것이 바로 우리가 물리적 계층과 가상 계층부터 소프트웨어 계층과 그 이상에 이르기까지 인프라의 모든 측면을 지속적으로 평가하고 개선하는 이유"라고 밝혔다.

또 "우리의 목표는 빠르게 발전하는 새로운 모델과 연구를 지원할 수 있는 유연하고 안정적인 시스템을 만드는 것이다”라고 말했다.

이와 관련, 아르빈드 스리니바스 퍼플렉시티 창립자 겸 CEO는 최근 "메타 연구원을 영입하려고 했더니, H100 1만개를 구하면 다시 오라"라는 말을 들었다며 "1만개를 구하려면 수십억달러와 5년이 넘는 시간이 걸릴 것"이라고 하소연했다.

메타가 클러스터당 2만5000여개의 H100을 투입했다는 것이 어느 정도인지 짐작할 수 있는 부분이다. 저커버그 CEO도 AGI 개발을 언급하며 "우리 인프라가 대단하다는 것을 사람들이 잘 모르는 것 같다"라고 지적한 바 있다.

박찬 기자 cpark@aitimes.com