최근 MLPerf 인공지능(AI) 벤치마크 테스트에서 엔비디아의 H100 GPU가 최고의 AI 훈련 성능을 기록한 것으로 나타났다.
로이터는 27일(현지시간) MLPerf AI 벤치마크 테스트 결과 엔비디아 H100 텐서 코어 GPU가 가속기당 AI 훈련 테스트에서 8가지 범주에서 모두 새로운 기록을 세우며 가장 빠른 성능을 보였다고 보도했다.
또 HDR 인피니밴드(InfiniBand)로 상호 연결된 HGX H100 인프라에서 실행한 대규모 AI 훈련 벤치마크 테스트에서도 가장 빠른 시간 기록을 달성하며, 8가지 범주에서 새로운 기록을 세웠다.
이번 MLPerf AI 훈련 벤치마크 테스트에는 아수스텍, 마이크로소프트 애저, 델, 후지쯔, 기가바이트, H3C, IEI, 인텔, 하바나 랩스, 크레이, 레노보, 엔비디아, 코어위버, 퀀타 클라우드, 슈퍼마이크로, 엑스퓨전 등이 참여했다.
MLPerf AI 훈련 벤치마크에서는 이미지 분류, 객체 감지, 이미지 분할, 자동 음성 인식, 자연어 처리, 추천, 대형언너모델(LLM) 등 8가지 서로 다른 AI 워크로드를 훈련하고 테스트한다.
특히 이번 MLPerf 벤치마크에는 GPT-3를 기반으로 LLM을 훈련하는 테스트가 처음으로 도입됐다. LLM은 MLPerf 벤치마크 중에서 가장 많은 연산을 요구할 뿐 아니라 가장 비싼 벤치마크다.
데이비드 칸터 ML커먼즈 전무이사는 “LLM 벤치마크를 개발하는 데 60만 시간 이상의 가속기 컴퓨팅 시간과 뛰어난 재능을 가진 엔지니어를 투입했다"고 밝혔다. 다만 개발 비용은 수백만 달러라고만 밝히면서 공개를 거부했다.
LLM 벤치마크 테스트에는 엔비디아와 인텔 하바나 랩스, 두 회사만 벤치마크 결과를 제출했다. AI 클라우드 스타트업인 코어위브와 제휴해 제출한 엔비디아는 3584개의 H100 칩을 사용해 훈련 시간이 10.94분의 훈련 시간을 기록했다. 반면 인텔이 인수한 Ai 칩 회사인 하바나 랩스는 384개의 가우디2(Gaudi2) 칩을 사용해 311.945분 만에 훈련를 완료했다.
데이브 살베이터 엔비디아 AI 벤치마킹 이사는 “MLPerf에서 얻은 테스트 결과는 실제 환경과 다른 무균 실험실에서 얻은 것이 아니다”며 “코어위브 클라우드에서 실제로 사용 가능한 상용 인스턴스에서 기록한 결과”라고 강조했다.
박찬 기자 cpark@aitimes.com
