하드웨어에서 발생하는 병목현상으로 인공지능(AI) 기술 성장이 억제될 수 있다는 의견이 나왔다.
병목현상을 제거하지 않고 데이터센터에 더 많은 AI 가속기를 투입한다고 성능이 더 좋아지기 어렵다는 것이다.
바론 펑(Baron Fung) 델오로(Dell'Oro) 리서치 디렉터는 "기존 하드웨어 병목현상을 해결하지 않으면 데이터 센터에 AI 가속기 채택이 지연될 수 있다"고 21일(현지시간) 전했다.
AI는 데이터 센터와 엣지에 훈련과 추론에 최적화된 컴퓨팅 기술을 집약한 AI칩으로 구현된다. AI 가속기로 불리는 이 반도체는 이미지와 음성 인식, 보안과 예측 분석 등의 작업을 가속화하는 데 이용된다.
바론 펑은 현재 AI 가속기가 전 세계 데이터 센터의 일부에서만 사용되고 있다며, 앞으로 5년간 두 자릿수대의 높은 성장률로 점점 더 많은 데이터 센터에 적용될 것으로 보고 있다.
그는 "기존 병목현상을 먼저 해결하지 않고 AI 가속기를 더 많이 배치하는 것처럼 간단한 문제는 아니다"고 지적했다.
펑은 ▲랙 아키텍처(Rack Architecture) ▲네트워킹 ▲CPU(중앙처리장치) ▲메모리 밀도 등 4개 영역의 개선이 AI 가속기 문제를 해결하는 주요 기술이 될 것이라고 주장했다.
◇ 랙 아키텍처 개선, "GPU 코어가 많아지며 발열을 관리해야 한다"
GPU의 채택이 많아지고 코어가 한군데로 모이면서 발열 문제가 심각하게 나오고 있다.
펑 디렉터는 AI 가속기 채택 시, 한 서버에 여러 개의 GPU가 탑재됐으며, 여러 AI 가속기가 중앙집중식 랙 아키텍처에 점점 더 많이 배치되고 있다고 지적했다.
대표적인 예로 지난 4월 발표된 엔비디아의 DGX A100 서버가 있다. 각 시스템에는 A100 GPU 8개가 들어 있다.
그는 단일 서버에서 대량의 리소스를 풀링하고 하드웨어를 가상화하면 여러 사용자가 동시에 워크로드를 실행할 수 있다고 설명했다.
엔비디아가 최근 출시한 암페어 A100은 단일 A100 GPU로 최대 7개의 GPU 인스턴스를 허용하며 가상화를 구현한다.
"이는 서버당 GPU가 1개씩 있는 기존의 더 많은 분산형 아키텍처에 비해 컴퓨팅 밀도를 큰 폭으로 증가시키지만, 열 분산이라는 상당한 난제를 불러왔다"며 발열을 줄이기 위해서는 폼팩터, 전력 분배 또는 냉각 시스템을 바꿔야 한다고 그는 설명했다.
구글 TPU(텐서플로처리장치) 가속기의 경우와 마찬가지로 일부 공급업체는 이를 해결하기 위해 액체 냉각을 선택했다.
◇ 보다 빠른 네트워킹 패브릭
펑은 데이터 센터가 중앙 집중식 컴퓨팅 아키텍처로 이동함에 따라 고속 네트워크 패브릭이 필수적이 된다고 강조했다.
네트워킹 패브릭은 스위치와 엔드포인트 등 모든 노드가 다른 모든 노드와 상호 연결되는 네트워킹 유형이다. '섬유(Fabric)'를 직조하는 구조와 비슷해 이같이 표현한다. 네트워킹 패브릭은 전통적으로 데이터센터에 사용되는 개념이다.
엔비디아는 지난해 69억달러에 멜라녹스를 인수하면서, NV링크와 인피니밴드(InfiniBand) 기술을 보유하게 됐다. 이는 AI 데이터 센터에서 생성되고 처리되는 수많은 비정형 데이터를 처리하는 중요한 두 가지 기술이다.
펑은 앞으로 네트워크 패브릭과 스토리지·컴퓨팅 노드를 연결하는 속도 기준이 400Gb/s 이더넷이 될 것으로 보고 있다.
그는 "이런 가속화된 컴퓨팅 서버가 데이터 센터 내에서 가장 대역폭을 많이 필요로 하는 노드가 될 것"이라고 말했다.
◇ 컴퓨팅 중심은 CPU
펑은 "AI 가속기가 CPU를 대체하지 않는다는 사실을 명심해야 한다"며 CPU의 성능이 중요한 요소라고 지적했다.
GPU를 비롯한 AI 가속기 프로세서가 보다 좁은 범위의 전문화된 작업을 수행하면, CPU는 광범위한 범용 컴퓨팅 작업을 관리하면서 전체 시스템의 중심이 된다.
이에 펑은 CPU 코어 수와 주어진 워크로드에 대한 GPU 수의 균형을 맞추는 것이 필수적이라고 주장한다.
인텔과 AMD의 발전은 AI 워크로드 해결에도 도움이 되고 있다는 것이다. 인텔의 3세대 제온(Xeon)과 AMD의 3세대 에픽(EPYC)이 기대되는 이유다.
◇ AI 처리를 위해 요구되는 고용량 메모리
펑은 AI 하드웨어 서밋에서 "구글, 마벨, 람부스의 전문가들은 메모리 성능이 대형 AI 훈련 모델의 규모를 어떻게 제한할 수 있는지에 대해 의견을 나눴다"고 말했다.
가속화된 컴퓨팅 서버에서 대규모 머신러닝 모델을 위해서는 수많은 데이터 처리가 필요하다. 이를 위해서 엄청난 양의 메모리가 요구된다.
그는 "메모리 용량이 늘어나면 더 많은 모듈과 인터페이스가 필요하게 되고, 이는 칩과 칩 사이의 지연을 감소시킨다"고 말했다.
펑은 메모리 문제를 해결하기 위해서는 메모리 칩을 더 가깝게 패키징하는 3차원 적층법과 비용이 많이 들지만 지연을 최소화하기 위해 사용되고 있는 고대역폭 메모리(HBM)이 있다고 설명했다.
