MLPerf, 상용·샘플· R&D 3개 범주에서 8개 항목으로 AI 성능 비교
엔비디아 암페어 A100 GPU, 상용화 8개 벤치마크 모두 1위 차지
구글, "TPU v4가 엔비디아보다 성능 좋아"…R&D 부문에서 다수 1위

머신러닝(ML) 성능을 조사하는 벤치마크 가운데 하나인 MLPerf 훈련 벤치마크 3라운드에서 엔비디아와 구글이 나란히 1위를 차지했다. 두 회사가 1위를 기록했지만 정확한 비교는 좀 더 살펴봐야 한다. 점수를 매기는 방식이 개별 인공지능(AI) 가속기가 아닌 시스템이 기준이었다.

엔비디아는 '암페어(Ampere)' 아키텍처 기반의 A100 GPU를 사용한 슈퍼컴퓨터, 또 구글은 TPU(Tensor Processing Unit) v3와 TPU v4 시스템으로 각각 MLPerf 벤치마크에서 높은 성적을 거뒀다.

EE타임스는 엔비디아에 대해 "A100 기반 시스템으로 상용화한 시스템 범주의 모든 벤치마크에서 표준화된 결과로 1위를 차지했다"며 "엔비디아 가속기는 엔비디아뿐만 아니라 후지쯔, 인스퍼, 델, 텐센트, 알리바바 등 서드파티(third-party) 시스템 구축업체들이 사용해 벤치마크 결과를 압도했다"고 설명했다.

구글에 대해서는 "여러 벤치마크에서 TPU v3 기반 슈퍼컴퓨터로 가장 빠른 교육 시간을 자랑했지만, 엔비디아의 대규모 제품보다 두 배나 많은 가속기 칩을 보유하고 있다"며 "구글은 또 TPU v4가 어떤 능력을 발휘할 수 있을지에 대해서도 힌트를 줬다"고 분석했다.

(자료=엔비디아)
MLPerf 벤치마크 결과 (자료=엔비디아)

 

◇MLPerf, 상용·샘플· R&D 3개 범주에서 8개 항목으로 AI 성능 비교

MLPerf는 이미지 분류, 대상 감지, 강화 학습, 추천 및 언어 번역과 같은 전형적인 딥 러닝 비즈니스 시나리오에 대한 8가지 수행 과제를 놓고 AI 성능을 평가했다.

▲대화, 번역, 검색 등 광범위하게 사용되는 자연어 처리 모델인 BERT(Bidirectional Encoder Representation from Transformers)와 ▲온라인 쇼핑 웹사이트, 소셜 미디어, 검색 결과에 널리 사용되는 모델인 DLRM(Deep Learning Recommendation Mode)가 이번 3라운드에 새롭게 추가됐다.

이전 라운드의 미니 바둑(Mini-Go) 벤치마크는 강화했으며, 19×19 바둑판을 사용했다. 이 벤치마크는 강화 학습에 의존하기 때문에 가장 어려운 테스트다. 시스템이 추론을 통해 학습하는 훈련 데이터 세트가 아니다. 바둑에 대한 직접적인 추론을 통해 학습하기 때문에 진행 중에 자체적인 훈련 데이터를 생성한다.

테스트는 시스템별로 이뤄진다. 칩별로 벤치마크 점수를 기록하지는 않는다. 가속기가 없는 4코어 CPU부터 4096코어의 구글 TPU를 사용한 슈퍼컴퓨터까지 다양한 규모의 시스템이 MLPerf 3라운드에 도전했다.

▲상용화 가능(Commercially Available) ▲프리뷰(Preview) ▲연구개발(R&D)의 3가지 범주에서 테스트를 진행했다. 상용화 시스템은 모든 하드웨어와 소프트웨어가 서드파티에 의해 시판되고 사용 중임을 증명해야 한다. 프리뷰 시스템은 출시되지 않았지만 6개월 또는 다음 벤치마크 라운드까지 출시돼야 한다. 각각의 벤치마크 제출자는 상용화된 다음 라운드에서 동일한 시스템에 대해 같거나 개선된 결과를 제출하기로 약속해야 한다. 그렇지 않으면 실격된다. R&D는 이런 기준을 충족시킬 필요가 없다.

(자료=엔비디아)
8개 부문에서 가장 높은 벤치마크를 기록한 엔비디아 A100 (자료=엔비디아)

 

◇ 엔비디아 암페어 A100 GPU, 상용화 8개 벤치마크 모두 1위 차지 

엔비디아는 상업적으로 이용 가능한 시스템에서 8개의 벤치마크에서 1위를 차지했다.

암페어 아키텍처가 두 달 전 발표된 이후, 엔비디아는 암페어 기반의 A100 GPU를 탑재한 벤치마크 제출은 모두 상용화 범주에 속한다. 엔비디아는 모든 벤치마크에서 가장 많은 시스템을 제출했다.

엔비디아는 HDR 인피니밴드로 상호 연결된 DGX A100 시스템의 대규모 클러스터인 DGX 슈퍼POD(DGX SuperPOD) 시스템을 제출했다. 엔비디아에 따르면, 셀레네로 알려진 이 슈퍼컴퓨터는 미국에서 가장 빠른 AI 상용 시스템으로 2048개의 암페어 A100 칩으로 구성됐다. 

엔비디아 DGX-SuperPOD (사진=엔비디아)
엔비디아 DGX-SuperPOD (사진=엔비디아)

파레시 카리야(Paresh Kharya) 엔비디아 데이터센터 컴퓨팅 제품 관리 책임자는 "실적 기록을 보는 방법은 두 가지다. 첫째는 어떤 규모에서든 절대적으로 가장 빠른 성능이다. DGX-SuperPod는 불과 18분 만에 모든 모델을 교육할 수 있었다"며 "두 번째 방법은 모든 고객이 모든 애플리케이션을 대규모로 실행하는 것은 아니라는 것이다. 그래서 우리는 칩당 표준화된 성능을 살펴봤고 여기서도 엔비디아 A100이 상용 시스템 범주의 모든 성능 기록을 깼다"고 말했다.

엔비디아가 이렇게 높은 결과를 낸 것에 대해 파레시 카리야는 "해답은 소프트웨어로 시작하는 전체 스택 혁신에 대한 끊임없는 집중력"이라며, "우리는 생태계를 갖춘 소프트웨어뿐만 아니라 아키텍처에도 수십억달러를 투자했다. 이번 퍼포먼스 기본적으로 그런 모든 노력이 결실을 맺은 결과"라고 말했다.

◇구글, "차세대 TPU v4가 가장 빠른 가속기"…R&D 부문에서 높은 성적 기록

엔비디아와 함께 구글도 같은 결과를 바탕으로 '세계에서 가장 빠른 훈련 슈퍼컴퓨터(World’s Fastest Training Supercomputer)'를 보유하고 있다고 주장했다.

나빈 쿠마르(Naveen Kumar) 구글 AI 수석 엔지니어는 "8개 모델 중 4개는 30초도 안 되는 시간 안에 처음부터 훈련을 받았다"며 "이를 위해 2015년에는 이러한 모델 중 하나를 최첨단 하드웨어 가속기로 교육하는 데 3주 이상이 걸렸다는 점을 고려해야 한다. 구글의 최신형 TPU 슈퍼컴퓨터는 5년 뒤 같은 모델을 5배 가까이 빠르게 훈련시킬 수 있다"고 자사 블로그 포스트를 통해 전했다.

이 슈퍼컴퓨터는 구글이 지난 벤치마크에서 사용한 시스템의 4배 크기인 4096개의 TPU v3 칩을 탑재했다. 다만 구글은 이 시스템의 연구개발(R&D) 항목에만 결과를 제출했다. 아직 상용화되지 않았다는 뜻이다.

구글의 TPU v3를 탑재한 슈퍼컴퓨터 (사진=구글)
구글의 TPU v3를 탑재한 슈퍼컴퓨터 (사진=구글)

EE타임스는 "구글의 TPU v3 슈퍼컴퓨터는 벤치마크 4개에서 엔비디아의 셀레네를 제치고 자사의 시스템이 세계에서 가장 빠르다고 주장할 수 있었다"며 "그러나 셀레네보다 두 배 크며 결과가 칩 단위로 정산되면 TPU v3의 결과는 다를 것"이라고 반박했다. 구글의 결과는 '어떤 시스템이 더 큰가'에 대한 것이지, '어느 것이 컴퓨팅 효율적인가'를 보여주지는 않는다는 것이다.

구글은 차세대 TPU인 v4의 벤치마크 결과도 일부 공개했다. 쿠마르는 "구글의 4세대 TPU ASIC는 TPU v3의 행렬곱셈 테라플롭스(TFLOPs)의 2배 이상을 제공하며 메모리 대역폭이 크게 향상되고 상호연결 기술이 발전하고 있다"며 "구글의 TPU v4 MLPerf 제출은 보완 컴파일러와 모델링 진보로 이러한 새로운 하드웨어 기능을 활용한다. 이번 대회에서도 지난 MLPerf 훈련 대회(2라운드)와 비슷한 결과인 TPU v3 대비 평균 2.7배 향상된 것으로 나타났다"고 블로그를 통해 설명했다.

(자료=구글)
구글이 공개한 자사의 MLPerf 기록(자료=구글)

상업적으로 이용할 수 있는 시스템에서 엔비디아는 A100으로 현재 최고의 성적을 보였다. 다만 프리뷰와 R&D 범주의 시스템을 고려하면 8개 모델 중 3개 모델에서 구글 TPU v4가 칩당 성능에서 엔비디아보다 앞서 있다. 4라운드의 MLPerf에서는 엔비디아 가속기의 독주가 중단될 수도 있다는 것이다.

 

[관련기사] 베일 벗은 7나노 AI칩 '암페어'...엔비디아, GTC2020 컨퍼런스에서 공개

[관련기사] 엔비디아, AI 추론 벤치마크 테스트 신기록 달성

키워드 관련기사
  • MIT, “딥러닝, 컴퓨팅 파워 한계 접근”···‘AI겨울’ 해결책은?
  • 후지쯔, 고차원 데이터 최적 특성화 AI 개발
  • "자연어처리(NLP)에도 버그 있다"...구글ㆍ아마존ㆍMS 클라우드서 발견