베일 벗은 7나노 AI칩 '암페어'...엔비디아, GTC2020 컨퍼런스에서 공개
상태바
베일 벗은 7나노 AI칩 '암페어'...엔비디아, GTC2020 컨퍼런스에서 공개
  • 입력 2020-05-15 19:25
  • 댓글 0
이 기사를 공유합니다

826㎟ 실리콘 위에 트랜지스터 540억개 집적 효과
HPC 연산능력 1.5~2.1배, DGX 성능 2.5배 향상
AI 학습성능 3~6배, 추론성능 7배 향상
아토스, 오라클 등 도입 계획 속속 발표
엔비디아가 개발한 A100 GPU. (사진=엔비디아).
엔비디아가 공개한 암페어 A100 GPU. (사진=엔비디아).

엔비디아가 '볼타(Volta)'의 뒤를 이을 새로운 아키텍처로 예고해 온 '암페어(Ampere)' GPU가 드디어 공개됐다.  앙페르는 전작인 볼타에 비해 최대 75% 더 빠른 성능을 낼 것으로 기대되는 차세대 그래픽카드다.

젠슨 황 엔비디아 최고경영자(CEO)는 14일(현지시간) 진행한 연례 GPU 기술 컨퍼런스(GTC2020)에서 엔비디아의 첫 암페어 그래픽카드인 'A100' GPU를 발표했다. 볼타 아키텍처 칩에 비해 고성능컴퓨터(HPC) 성능은 최고 2.1배, DGX 성능 2.5배 향상시킨 것이 특징이라는 내용이다. 인공지능(AI) 애플리케이션을 적용하면 성능을 최고 20배까지 높일 수 있다는 설명도 덧붙였다.

코로나19 팬데믹으로 인해 이날 발표는 젠슨 황 CEO 자택에서 진행했다. 황 CEO는 A100을 가리켜 '세계에서 가장 강력한 7나노 공정의 반도체'라고 표현했다. 그는 또 "초고속 성능 반도체로 향후 데이터분석, 슈퍼컴퓨팅뿐 아니라 코로나바이러스 연구와 백신개발에도 가속도가 붙을 것"이라고 전망했다.

A100 GPU에 대해 설명하고 있는 젠슨 황 엔비디아 CEO. (사진=HPC와이어).
A100 GPU에 대해 설명하고 있는 젠슨 황 엔비디아 CEO. (사진=HPC와이어).

◆826㎟ 실리콘 위에 트랜지스터 540억개 집적 효과

앙페르 A100 GPU는 826㎟ 실리콘 위에 무려 540억개의 트랜지스터를 집적하는 것과 같은 효과를 내는 7나노 공정 칩이다.

젠슨 황 CEO는 이날 사전 녹음한 ‘키친 기조연설’에서 "암페어 아키텍처는 볼타 아키텍처의 후속이며, 볼타 GPU(12나노공정)와 A100GPU 모두 대만 TSMC에서 제조한다"고 밝혔다.

엔비디아는 HPC에 A100 GPU를 적용하면 볼타 아키텍처 GPU를 사용할 때보다 워크로드(표준 작업량)가 250% 향상된 피크 더블-프리시전(64비트 프로세싱) 부동소수점 연산 처리 속도의 도움을 받게 된다고 설명했다.

암페어 GPU를 사용한 HPC가 볼타 GPU를 사용한 HPC에 비해 1.5~2.1배의 워크로드 속도 향상을 보여 준다는 자체 벤치마크테스트(BMT) 결과도 밝혔다.

피크 싱글프리시전(32비트 프로세싱) 성능은 텐서플로트-32(TF32) 텐서 코어를 추가시 이론상 10~20배 향상된다.

기타 새로운 기능은 다음과 같다.

•단일 A100 GPU를 최대 7개의 개별 GPU처럼 분할해 사용할 수 있게 해주는 멀티 인스턴스 GPU(Multi-instance GPU)

• GPU 간 고속 연결을 배가시켜 주는 3세대 엔비디아 NV링크(NVLink) 패브릭.

• 텐서 코어의 성긴 매트릭스 운용을 지원하고 이를 2배 가속화하는 구조적 성김(structural sparsity).

기존 볼타GPU와 A100 사양을 비교한 차트. (사진=HPC와이어).
기존 볼타GPU와 암페어GPU 사양 비교표 (사진=HPC와이어)

암페어 GPU는 프랑스 물리학자이자 수학자인 앙페르의 이름을 딴 것이다. HPCㆍAIㆍ그래픽을 지원하는 볼타 아키텍처와 함께 엔비디아의 단일 범용 GPU 전략을 강화하는 모습을 보여준다.

젠슨 황 회장은 13일 언론 브리핑에서 "볼타 GPU 서버, T4 GPU 서버, CPU 서버를 모두 갖추는 대신 이를 하나의 통합된 암페어 서버에서 실행할 수 있다"고 언급한 바 있다.

그는 "“의문의 여지없이 전체 데이터 센터의 가속 워크로드를 단일 플랫폼으로 통합한 것은 이번이 처음"이라면서 "이제 비디오 분석에서부터 이미지 처리, 음성, 교육, 데이터 처리 추론까지 모든 것이 이제 하나의 통합 서버에 있다"고 강조했다.

◆새 DGX는 8개 A100 GPU로 구성

젠슨 황은 기조연설에서 새로운 DGX 머신에 대해서도 언급했다. DGX A100은 8개의 A100 GPU으로 구성돼 구동되며, 이 GPU보드는 초당 12.4테라바이트(TB) 대역폭, 320기가바이트(GB)의 메모리를 제공한다.

DGX A100. (사진=엔비디아).
DGX A100. (사진=엔비디아).

3세대 NV링크 패브릭이 장착된 6개의 NV스위치가 GPU들을 연결해 주면서 초당 4.8TB의 양방향 대역폭을 제공한다.

각 DGX 100 시스템은 9개의 초당 200기가비트(200Gb/s) 멜라녹스커넥트X-6 네트워크 인터페이스와 15TB의 4세대 NVMe 스토리지를 제공한다.

엔비디아는 3세대 DGX로 또다른 주목할 만한 변화를 만들었다. DGX A100은 인텔의 제온 대신 AMD의 2개의 64코어 에픽롬 CPU를 사용한다. 이러한 AMD CPU사용은 인텔의 떠오르는 GPU 개발에 대한 경계의 신호일 수도 있고, AMD CPU의 가격 대비 성능 때문일 수도 있다.

엔비디아는 현재 ARM CPU 옵션도 진행하고 있다. GPU 가속 ARM을 중심으로 활발한 CPU 개발 작업을 진행하면서 4세대 DGX에서 또 다른 CPU로 교체하는 것도 가능해 보인다. 엔비디아는 마벨, 또는 앙페르로부터 ARM 칩을 조달할 수도 있고, DGX스택에 자체 개발한 ARM CPU를 추가할 수도 있다. 쿠다11(CUDA 11)은 ARM64의 전폭적인 지원으로 데뷔한다.

엔비디아는 또 140대의 DGX A100 시스템(1120개 GPU), 170대의 멜라녹스 퀀컴 200G IB 스위치, 280TB/s 네트워크 패브릭(15km 이상의 광케이블), 4페타바이트의 올플래시 네트워킹 스토리지로 이뤄진 DGX A100 슈퍼팟(SuperPod)도 만들었다고 발표했다. 전체 시스템은 거의 22페타플롭스(더블프리시전·64비트 처리) 연산 성능(700페타플롭스의 AI컴퓨팅)을 제공하며 구축에는 3주가 채 걸리지 않았다고 말했다.

우리나라 KISTI의 슈퍼컴 5호기 누리온의 연산 속도는 25.7페타플롭스(PF)다. 1PF는 초당 1000조 개의 부동 소수점을 연산처리할 수 있는 속도다.

엔비디아는 새턴-5(Saturn-V)로 불리는 자체 슈퍼컴퓨터에 4개의 슈퍼팟을 추가해 AI 슈퍼컴퓨팅 용량을 거의 5엑사플롭스급(초당 500경 부동소수점 연산속도·5000테라플롭스)으로 늘렸다. 엔비디아는 이를 통해 새턴-5를 세계에서 가장 빠른 AI 슈퍼컴퓨터로 만들었다고 말했다.

이 모든 GPU의 총 더블프리시전(64비트 처리) 컴퓨팅 능력은 최고 93테라플롭스까지 나오지만 젠슨황은 새턴5가 실제로는 하나의 시스템이 아니란 점을 분명히 했다. 이는 하나의 관리 인터페이스 아래 4개의 다른 곳에 있다. 엔비디아는 이 시스템을 컴퓨터 그래픽, 로봇, 자율주행차, 헬스케어 및 자사의 새로운 추천시스템인 멀린에 적용된 소프트웨어 개발에 사용한다.

DGX A100은 19만 9000달러(약 2억4477만원)에 판매되며 현재 출하되고 있다. 첫 번째 주문분은 코로나19를 더 잘 이해하고 대항하기 위해 클러스터를 사용중인 미국 에너지부의 알곤국립연구소로 출하됐다. HPC 연구계의 다른 얼리 어답터로는 인디애나대학교, 주리히 슈퍼컴퓨팅 센터, 칼스루헤 기술연구소, 막스 플랑크 컴퓨팅 및 데이터 시설, 미 에너지부의 버클리 국립 연구소의 NERSC(국립에너지연구소 과학컴퓨팅센터) 등이다.

A100을 통합할 것으로 예상되는 클라우드 서비스 제공업체 및 시스템 구축업체 목록에는 알리바바 클라우드, 아마존 웹 서비스(AWS), 아토스(Atos), 바이두 클라우드, 시스코, 델, 후지쯔, 기가바이트, 구글 클라우드, H3C, HPE, 인스퍼, 레노버, MA애저, 오라클, 콴타/QCT, 슈퍼 마이크로, 텐센트클라우드 등이 있다.

DGX A100의 백본인 HGX A100 리퍼런스 디자인은 4개와 8개의 GPU 구성으로 제공된다.

4 GPU HGX A100은 NV링크와 GPU 간의 완전한 상호연결을 제공하며, 8 GPU 버전은 NV스위치를 통해 GPU와 GPU 간 풀 대역폭을 제공한다.

새로운 멀티 인스턴스 GPU(Multi-instance GPU) 아키텍처가 적용된 암페어 서버 사용자들은 서버를 추론을 위한 56개의 소규모 GPU로 구성하거나, 교육 또는 HPC 작업량 처리를 위해 8개의 GPU를 함께 작동되도록 구성할 수 있다.

한편 엔비디아는 코로나19 사태 대응을 위해 의료용 에지 컴퓨팅 ‘클라라 헬스 케어 플랫폼’을 확장했다. A100 GPU의 출시로 엔비디아의 유전체 계산 솔루션 ‘클라라 파라브릭스’가 전체 게놈의 DNA 염기서열 분석 시간을 20분 미만으로 단축했다. 또한 2시간 이내에 결과를 반환하는 GPU 가속 RNA 시퀀싱 파이프라인을 도입, 연구자에게 환자의 민감성 및 치료 반응을 정확히 알 수 있도록 했다.

◆암페어 A100 GPU 지원 그룹 속속 참여

GTC2020 이후 구글, MS 애저, 아마존웹서비스, 바이두, 알리바바 등 공룡 IT 기업들이 앞다퉈 A100을 활용해 데이터센터를 확장하겠다고 나섰다. 또 몇몇 기업·기관은 이미 A100을 활용해 빠르고 정확하게 작업을 이어가고 있다.

디지털 전환 분야 글로벌 리더인 아토스는 슈퍼컴퓨터 불세쿼나 X2415(BullSequenna X2415)에 A100을 도입하겠다고 발표했다. 아토스 측은 A100으로 전례없는 컴퓨팅 성능과 HPC 및 AI 기반 작업량이 향상될 것으로 기대했다.

아토스 슈퍼컴퓨터 불세쿼나 X2415. (사진=아토스).
아토스 슈퍼컴퓨터 불세쿼나 X2415. (사진=아토스).

미국 에너지국 산하 아르곤국립연구소는 가장 먼저 A100 칩 구매의사를 밝혔다. 핵물리학연구소인 이곳은 앞으로 A100이 탑재된 AI클러스터와 컴퓨팅기술로 코로나바이러스 연구에 박차를 가할 계획이다.

DGX A100을 도입한 미국 아르곤국립연구소. (사진=엔비디아).
DGX A100을 도입한 미국 아르곤국립연구소. (사진=엔비디아).

인스퍼도 새로운 엔비디아 A100 텐서 코어 GPU 지원을 위한 5개의 AI 서버를 공개했다. 5개의 서버는 각각 다수의 AI 컴퓨팅 시나리오를 다루고 최신 엔비디아 A100 GPU 가운데 8~16개를 지원한다. A100 GPU의 3세대 텐서 코어는 속도와 유연성, 활용성 측면에서 훨씬 성능이 개선됐으며, 이를 통해 해당 서버들은 최대 40 페타옵(PetaOPS)의 AI 컴퓨팅 성능을 제공한다.

인스퍼는 데이터센터 인프라와 AI 풀스택 솔루션, 클라우드 컴퓨팅 공급업체로 세계 3대 서버 제조기업 가운데 하나다.

[관련기사] "가속 컴퓨팅으로 난제 해결'...엔비디아 'GTC 2020' 기조연설

[관련기사] 엔비디아, 빅데이터 처리 속도 높인 'Spark 3.0' 발표

[관련기사] 기가바이트, NVIDIA A100 GPU탑재 신제품 공개

 

기자 프로필


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
유용한 리스티클
  • AI를 활용한 10가지 좋은 예
  • MIT 테크리뷰가 선정한 젊은 AI혁신가 7인
  • 포스트코로나 이끌 AI 스타트업 'TOP 10'
  • 주목할 중국·일본 로봇 스타트업 '베스트 10'
  • 포브스 선정 유망 AI기업 베스트 50
  • 코로나19와 싸우는 테크기업 '베스트 15'