엔비디아가 최신 '블랙웰(Blackwell)' GPU를 대상으로 한 첫번째 ML퍼프 훈련 테스트 결과를 공개했다. 블랙웰 'B200' GPU는 '호퍼(Hopper)' 아키텍처 기반의 이전 모델 'H100'보다 2배의 성능을 제공하는 것으로 나타났다.
엔비디아는 4일(현지시간) ML커먼스가 실시한 'ML퍼프(MLPerf) 5.0' 훈련 벤치마크 결과를 발표했다.
ML퍼프는 인공지능(AI) 엔지니어링 컨소시엄 ML커먼스가 마련한 벤치마크 테스트 기준이다. 6개월마다 한번씩 기업들이 이 기준을 토대로 제품을 테스트하고, 그 결과를 ML커먼스에 제출하는 형태로 이뤄진다.
이번 벤치마크에서도 엔비디아는 모든 테스트 항목에 걸쳐 최고 성능을 기록하며 압도적인 모습을 보였다. 특히 메타의 대형언어모델(LLM) ‘라마 3.1 405B’ 사전 학습 항목에서는 유일하게 결과를 제출한 플랫폼으로, 가장 까다로운 테스트에서 단독으로 성능을 증명하는 자신감을 선보였다.
엔비디아는 블랙웰을 기반으로 한 두 종류의 시스템 ▲GB200 NVL72 랙스케일 시스템 기반 티케(Tyche)와 ▲DGX B200 시스템 기반 닉스(Nyx)를 활용해 훈련 성능을 입증했다. 여기에 IBM, 코어위브와의 협업을 통해 2496개의 블랙웰 GPU와 1248개의 그레이스 CPU를 활용한 훈련 결과도 함께 제출했다.
특히 라마 3.1 405B 모델 학습 테스트에서는 이전 세대 아키텍처 대비 2.2배 높은 성능을 기록했다.
블랙웰 GPU 2496개를 활용한 훈련 테스트는 단 27분 만에 완료, 동일한 작업을 위해 이전 세대 칩을 3배 이상 더 투입하고도 더 긴 시간이 걸렸던 것에서 크게 발전했다. 이는 수천억개의 매개변수로 구성된 LLM 학습에 대한 플랫폼 처리 능력을 가늠할 수 있는 중요한 지표로, AI 모델 훈련에서의 엔비디아 블랙웰 칩의 우수성을 입증하는 사례다.
또 '라마 2 70B' 모델의 로라(LoRA) 기반 미세조정 항목에서는 블랙웰 GPU 8개를 장착한 'DGX B200' 시스템이 이전 세대 동일 구성 대비 2.5배 높은 성능을 기록했다.
체탄 카푸르 코어위브 제품 총괄 책임자는 "최근 AI 업계는 수십만개 칩을 일괄로 연결하는 방식 대신, 소규모 칩 그룹을 여러개 구성해 훈련 작업을 병렬 처리하는 경향이 강해지고 있다"라며 "이런 방식이 수천억개 매개변수를 가진 초대형 모델 훈련 시간 단축에 크게 기여하고 있다"라고 밝혔다.
박찬 기자 cpark@aitimes.com
