일론 머스크의 xAI의 '그록 3'를 훈련하기 위해 엔비디아 GPU 10만개를 탑재한 인공지능(AI) 훈련 시스템의 조립을 완료했다. ‘콜로서스(Colossus)’로 명명된 이 시스템은 현존 가장 강력한 AI 훈련 클러스터로 평가된다.
머스크 CEO는 3일(현지시간) X(트위터)를 통해 미국 멤피스에 있는 10만개 엔비디아 'H100' GPU를 탑재한 데이터센터 ‘클로서스’가 완성된 사실을 공개했다고 보도했다. 이 데이터센터는 이미 7월부터 일부 가동을 시작했다.
그는 완성된 콜로서스를 "세계에서 가장 강력한 AI 훈련 시스템"이라고 설명했다. 이는 세계에서 가장 빠른 AI 슈퍼컴퓨터로 평가받는 미국 에너지부의 오로라 시스템의 최고 속도 10.6엑사플롭스보다 빠르다는 것을 뜻한다.
또 몇달 안에 콜로서스의 칩을 20만개로 늘릴 계획이며, 그 중 5만개가 현재 최첨단 칩인 'H200'일 것이라고 설명했다.
H200은 엔비디아가 지난해 11월에 출시한 H100 업그레이드된 버전으로, 5세대 고대역폭메모리(HBM)인 'HBM3E' 141GB가 장착된다. H100보다 출력 속도가 2배 가깝게 빨라졌고, 용량과 대역폭도 각각 1.8배와 1.4배 증가했다.
xAI는 현재 주력 대형언어모델(LLM)인 '그록-2'를 1만5000개의 H100 GPU에서 훈련한 것으로 알려졌다. 클로서스에서 훈련한 '그록-3'를 올해 말까지 출시한다는 계획이다.
한편, 머스크 CEO는 지난달 26일에도 텍사스 오스틴에 있는 테슬라 본사의 슈퍼컴퓨터 '코르텍스(Cortex)'를 공개한 바 있다.
코르텍스는 테슬라의 자율주행 기능 'FSD'와 휴머노이드 로봇 '옵티머스'를 훈련하기 위한 인프라다. 이곳에도 10만개의 엔비디아 'H100' 및 'H200 칩'이 들어간다. 머스크 CEO는 지난 6월 테슬라가 엔비디아 AI 칩 구매를 위해 올해에만 30억∼40억달러(약 4조∼5조3000억원)를 투입할 예정이라고 밝혔다.
테슬라는 이 외에도 뉴욕 버팔로 공장에 '도조(Dojo)'라는 슈퍼컴퓨터를 보유하고 있다. 이곳에도 총 5억달러(약 6700억원)를 추가 투자할 예정이다.
박찬 기자 cpark@aitimes.com
- 머스크, 자율주행·로봇 학습용 슈퍼컴퓨터 영상 공개
- xAI, '그록-2' 코드 수정 후 속도 2배 향상..."챗봇 선호도 세계 2위"
- 머스크 "그록3 훈련에 GPU 10만개 투입...대단할 것"
- "머스크의 '콜로서스 완성' 주장은 과장...알트먼은 경쟁 뒤질지 걱정"
- "메타도 GPU 10만개 클러스터 구축 중...연말 '라마 4' 훈련에 투입"
- 머스크·앨리슨, 젠슨 황에게 GPU 애원..."제발 내 돈을 받아 줘"
- 젠슨 황 "19일 만에 슈퍼컴 구축한 머스크는 슈퍼맨...남들은 1년 걸릴 일"
- xAI, AI 라벨러 모집 공고에 한국어 포함...'그록-3' 서비스 확대 전망
- xAI, GPU 10만장 투입한 슈퍼컴퓨터 내부 공개..."10만장 더 추가할 것"
- 머스크, 5개월 만에 xAI 추가 자금 모집 중...기업가치 2배로 껑충
- "머스크, 올해 AI 하드웨어 구축에 14조 투입"
- 머스크, '그록 3' 출시 예고...세계 최대 GPU 훈련 결과에 관심
- 테슬라, '도조' 슈퍼컴퓨터 팀 해체...전 임원은 외부 스타트업 설립
- 머스크, 테슬라 '도조' 슈퍼컴 폐쇄 확정
