메타도 GPU 10만개로 구성된 슈퍼컴퓨팅 클러스터 구축을 앞둔 것으로 알려졌다. 이제 GPU 10만개 클러스터는 인공일반지능(AGI) 경쟁에 뛰어든 몇몇 기업의 필수조건이 됐으며, 이를 통해 100만개 GPU 클러스터 구축에도 도전할 것이라는 예측이다.
디 인포메이션은 11일(현지시간) 메타의 작업에 참가한 소식통을 인용, 메타가 미국 모처에 엔비디아 'H100' 10만개 이상을 투입한 슈퍼 컴퓨팅 클러스터를 구축 중이라고 보도했다.
이에 따르면 칩 구입에만 20억달러(약 2조7000억원)가 넘는 비용이 들어갔다. 10~11월 중 완공 예정으로, 메타의 '라마 4' 개발에 활용될 예정이다.
이에 앞서 지난 3일에는 일론 머스크 CEO가 '그록 3'를 훈련하기 위한 10만개 GPU 클러스터 '콜로서스'가 완성됐다고 밝힌 바 있다. 이는 현존 최대 규모의 슈퍼컴퓨팅 클러스터다.
그러나 일부 전문가들은 기술의 한계로 인해 머스크 CEO의 주장이 과장일 가능성이 크다고 짚었다. 10만개의 GPU를 하나로 연결하는 데 필요한 네트워킹 기술이 아직 성공을 거둔 일이 없다는 근거에서다. 전력 공급도 문제로 꼽았다.
메타도 이 점이 똑같이 지적됐다. 이에 대해 메타는 이전에 엔비디아의 족점 네트워킹 장비를 이용하는 대신, 이더넷 기반 네트워킹으로 전환하고 있다고 밝힌 바 있다. '라마 3'를 훈련하는 데에도 '수렴형 이더넷을 통한 원격 직접 메모리 액세스(RoCE)'라는 고속 네트워크 프로토콜을 사용했다.
AI 모델 성능을 높이기 위해서 GPU 클러스터의 크기가 중요하지만, 그게 전부는 아니다. 작은 클러스터로 오랜 기간 동안 훈련을 하면, 큰 클러스터와 맞먹는 모델 학습이 가능하다.
하지만, 문제는 시간이다. 오픈AI나 구글, 메타, xAI 등의 프론티어급 모델 성능이 거의 비슷해지며, 이제는 누가 빨리 모델을 구축하느냐의 싸움으로 변했다는 설명이다.
이 과정에서 슈퍼 클러스터의 등장은 피할 수 없다는 분석이다. 메타의 사례는 세계에서 가장 부유한 약 6개의 AI 업체가 서로를 앞서려고 경쟁하는 모습을 잘 보여준다는 설명이다.
나아가 일부 회사는 10만개 칩 클러스터의 효율성을 파악, 향후 100만개의 GPU 클러스터를 계획 중이라고 전했다.
지난 3월에는 오픈AI가 마이크로소프트(MS)와 2030년까지 수백만개의 AI 칩을 갖춘 데이터센터 구축 프로젝트, 일명 '스타게이트'를 진행 중이라는 소식이 전해졌다. 이에 따르면, 오픈AI와 MS는 내년 수십만개의 GPU로 구축한 슈퍼컴퓨터를 투입하고, 2026년까지 최종 목표보다 작은 슈퍼컴퓨터를 구축할 계획이다.
샘 알트먼 오픈AI CEO의 마음도 급해진 것으로 알려졌다. 머스크 CEO의 콜로서스 완료 소식이 전해지자, MS 임원들에게 AI 개발 경쟁에서 뒤처질 수 있다는 우려를 표한 것으로 전해졌다.
임대준 기자 ydj@aitimes.com
