테슬라(Tesla)가 대규모 인공지능(AI) 및 자율주행 신경망 훈련을 위해 자체개발한 슈퍼컴퓨터 ‘도조(Dojo)’를 공개했다.
도조는 AI 머신 러닝(ML), 특히 차량에서 나오는 비디오 데이터를 사용한 비디오 훈련(Training)을 위해 구축된 테슬라의 맞춤형 슈퍼컴퓨터 플랫폼이다. 맞춤형 슈퍼컴퓨터는 자율주행을 지원하는 컴퓨터 비전 기술에 중요한 비디오 데이터를 사용해 신경망을 훈련하는 테슬라의 능력을 향상시킬 것으로 예상된다.
테슬라는 24일(현지시간) 핫칩스(Hot Chips 34) 컨퍼런스에서 독자적으로 설계한 칩을 사용한 도조 AI 슈퍼컴퓨터의 세부사항을 발표했다고 더레지스터(The Register)가 24일(현지시간) 보도했다.
도조는 기존의 슈퍼컴퓨터와 달리 특정 머신 러닝 알고리즘을 대규모로 실행할 목적으로 컴퓨팅, 네트워킹 및 I/O(입/출력) 실리콘에서 ISA(명령 세트 아키텍처), 전력 공급, 포장 및 냉각까지 포괄하는 맞춤형 아키텍처로 구축됐다.
테슬라는 먼저 15kW 수냉식 패키지에서 FP32(32비트 부동소수점) 성능에서 556 TFLOPS를 처리할 수 있는 반 입방 피트의 독립형 컴퓨팅 클러스터인 도조 훈련 타일(training tile)을 개발했다. 각 타일에는 11GB의 SRAM이 장착되어 있으며 전체 스택에서 맞춤형 전송 프로토콜을 사용하여 9TB/s 패브릭을 통해 연결된다.
가네시 벤카타라마난(Ganesh Venkataramanan) 테슬라 하드웨어 엔지니어링 수석 이사는 "이 훈련 타일은 컴퓨터에서 메모리, 전력 공급, 통신에 이르기까지 비교할 수 없는 통합을 제공한다"고 말했다.
훈련 타일의 핵심은 TSMC의 7nm 공정을 기반으로 하는 500억 개의 트랜지스터 다이(die)인 테슬라의 D1이다. 각 D1이 400W의 TDP(Thermal Design Power)에서 22 TFLOPS의 FP32 성능을 낼 수 있다.
벤카타라마난은 "트랜지스터를 밀리미터 제곱으로 비교한다면 이것은 아마도 현존하는 최첨단일 것"이라고 말했다.
테슬라는 그런 다음 25개의 D1을 TSMC의 시스템 온 웨이퍼(system-on-wafer) 기술을 사용해 패키징하고 "매우 짧은 대기 시간과 매우 높은 대역폭으로 엄청난 양의 컴퓨팅 통합을 달성"했다고 말했다.
또한 전원을 실리콘에 인접하게 배치하는 일반적인 접근 방식은 시스템-온-웨이퍼 설계와 수직 스택 아키텍처에는 비효율적이기 때문에 테슬라는 다이 바닥을 통해 직접 전원을 공급하도록 설계했다.
벤카타라마난은 "이 훈련 타일로 전체 데이터 센터 또는 건물 전체도 구축할 수 있지만 훈련 타일은 컴퓨팅 부분이기 때문에 컴퓨팅 결과를 처리하는 호스트 CPU로 전달해야 한다"라고 말했다.
이를 위해 테슬라는 호스트 CPU와 훈련 프로세서 간의 다리 역할을 하는 DIP(Dojo Interface Processor)도 개발했다. DIP는 또한 공유 고대역폭 메모리(HBM)의 소스 및 고속 400Gbit/sec NIC(Network Interface Card)의 역할도 수행한다.
각 DIP는 32GB의 HBM을 제공하며 최대 5개의 이러한 카드를 900GB/s의 속도로 훈련 타일에 연결해 타일당 총 160GB의 HBM에 대해 호스트에 총 4.5TB/s를 연결할 수 있다.
테슬라 도조 슈퍼컴퓨터의 기본 시스템인 도조 V1 훈련 매트릭스(Training Matrix)는 6개의 훈련 타일, 4개의 호스트 서버에 걸쳐 20개의 DIP, 이더넷 스위치 패브릭에 연결된 여러 개의 부속 서버로 구성된다.
기본 도조 V1 시스템에는 53,100개의 D1 코어가 있으며 BF16 및 CFP8 형식에서 1엑사플롭으로 기록했으며 타일에 1.3TB의 SRAM 메모리와 DIP에 13TB의 HBM2e 메모리가 있다. 총 120개의 타일과 1,062,000개의 사용 가능한 D1 코어로 구성된 도조 엑사포드(ExaPod) 시스템은 20엑사플롭을 달성했다.
또한 테슬라는 컴파일러 중심으로 도조 아키텍처를 설계했다. 벤카타라마난은 "우리가 한 것은 파이토치(PyTorch)를 사용하는 것이었다. 우리는 병렬화해 그 아래에 있는 하드웨어를 확장하는 데 도움이 되는 중간 계층을 만들었다. 그 아래에는 모든 것이 컴파일된 코드가 있다”며, "이것이 미래의 모든 워크로드에 적응할 수 있는 소프트웨어 스택을 생성하는 유일한 방법이다"라고 주장했다.
현재 실험실에서 실행 중인 도조 플랫폼은 당분간 대중 공개없이 테슬라 사용으로 제한된다.
AI타임스 박찬 위원 cpark@aitimes.com
[관련기사]테슬라, 뇌 인플란트 기업 싱크론 인수하나?
