마이크로소프트(MS)와 오픈AI가 1000억달러(약 134조7500억원)을 투입, 슈퍼컴퓨터를 구축 중인 것으로 알려졌다. 인공일반지능(AGI) 개발을 위해 현재 100배에 달하는 대규모 컴퓨팅 인프라가 필요하다는 판단에서다.
디 인포메이션은 29일(현지시간) 소식통 3명을 인용해 MS와 오픈AI가 2030년까지 수백만개의 AI 칩을 갖춘 슈퍼컴퓨터를 포함하는 데이터센터 구축 프로젝트, 일명 '스타게이트(Stargate)'를 진행하고 있다고 보도했다.
MS의 초기 비용 추정치를 확인한 소식통은 이 프로젝트에 최대 1000억달러가 필요하다고 밝혔다. 비용은 대부분 MS가 부담할 예정이다. 전체 비용 중 절반가량은 엔비디아의 GPU 구입에 사용될 것으로 보인다.
수백만개의 칩을 투입한 컴퓨팅 클러스터는 현존 최대 데이터센터의 100배에 달하는 어마어마한 규모다. 최근 메타는 '라마 3'와 차세대 모델 개발을 위한 세계 최대 규모의 데이터 센터 두곳을 소개했는데, 각 클러스터에는 GPU 2만4576개가 포함돼 있었다.
또 1000억달러는 MS가 지난해 서버나 건물, 장비 등에 지출한 액수의 3배가 넘는다. MS는 이미 클라우드와 AI 인프라 투자로 올해 이 분야의 투자가 급격하게 늘어날 것이라고 밝힌 바 있다.
양사는 지난해 여름부터 인프라 구축을 위해 5단계 프로젝트에 착수했다. MS가 올해와 내년 오픈AI에 수십만개의 GPU를 탑재한 서버를 제공하는 것이 1, 2단계다.
현재는 3단계가 진행 중인 것으로 알려졌다. 4단계에서는 2026년까지 최종 목표보다 작은 오픈AI용 슈퍼컴퓨터를 제공할 계획이다.
이 프로젝트는 오픈AI의 인공일반지능(AGI) 개발이 목적이다. 알트먼 CEO는 지난해부터 대규모 컴퓨팅 용량을 갖추는 것이 AGI 개발의 핵심이라고 계속 주장하고 있다.
알트먼과 오픈AI는 2022년 11월에 등장한 '테스트-시간 계산(test-time computation)'이라는 기계 학습 개념을 바탕으로, AI 모델에 더 많은 컴퓨팅 성능을 제공할 때 AI 모델이 눈에 띄게 향상된다고 강조하고 있다. 오픈AI는 연구 논문을 통해 이를 대화형 AI의 '확장 법칙'이라고 밝혔다.
알트먼이 올해 초부터 글로벌 칩 네트워크 프로젝트를 추진, MS 및 아랍에미리트 등과 새로운 칩 업체 설립을 추진 중인 것도 이 때문이다. 엔비디아의 GPU 수급만으로는 필요한 인프라를 확보할 수 없다는 판단에서다.
하지만 슈퍼컴퓨터 구축에는 극복할 기술적인 과제도 많은 것으로 알려졌다. 이 때문에 프로젝트도 5단게로 나눴다.
우선 슈퍼컴퓨터 구축 시 필요한 전력은 현재 대규모 데이터센터 여러 곳을 운영할 수 있는 5기가와트 정도로, 전력 확보가 어렵다는 지적이다. 이 때문에 소형 원자력 발전소 사용도 검토한 것으로 알려졌다. 두 회사는 이 분야에도 이미 투자를 실시한 바 있다.
또 현재 설계에서는 효율성과 속도를 높이기 위해서는 많은 AI 칩을 단일 렉에 설치해야 하는데, 이 경우 엄청난 열이 발생한다. 또 수백만개의 GPU를 연결하는 네트워크 케이블도 핵심 요소로 꼽히고 있다.
슈퍼컴퓨터를 어디에 배치할 것인지, 단일 데이터센터 혹은 근접한 여러 데이터센터로 분할 할지는 결정되지 않았다. 일반적으로는 GPU 클러스터가 동일 데이터센터에 배치할 때 효율성이 가장 높다.
이에 대해 데이터 센터 운영업체 디지털 리얼리티의 크리스 샤프 CTO는 "이런 프로젝트는 AGI 구축에 반드시 필요한 과정"이라며 "현재는 상상할 수 없을 정도로 큰 규모로 보이지만, 슈퍼컴퓨터가 실제로 완성될 시점에서는 그리 대단해보이지 않을 것"이라고 밝혔다.
프랭크 쇼 MS 대변인은 슈퍼컴퓨팅 계획에 대해 언급하지 않았지만 “우리는 항상 AI 역량의 한계를 뛰어넘는 데 필요한 차세대 인프라 혁신을 계획하고 있다”라고 말했다. 오픈AI는 공식적인 논평을 내놓지 않았다.
한편 블룸버그에 따르면 아마존도 AI 수요 급증에 따라 향후 15년 동안 데이터 센터 여러 곳에 1500억달러를 투자할 것으로 알려졌다.
임대준 기자 ydj@aitimes.com
- 몇달 뒤 등장할 'GPT-5', 과연 어떤 모습일까
- 메타, '라마 3' 훈련용 GPU 클러스터 공개..."클러스터당 'H100' 2만5000개 투입"
- 오픈AI 'Q스타'에 쏟아지는 추측..."획기적 기술 vs 가능성 낮아"
- "구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것"
- 사이타임, 효율적인 AI 데이터센터를 위한 새로운 칩 공개
- 세계에서 가장 빠른 'AI 슈퍼컴퓨터' 첫 선정...네이버 '세종'은 25위로 하락
- 머스크 "세계 최대 데이터센터 구축으로 AGI 본격 경쟁"
- "누군가 GPU 120만개짜리 슈퍼컴퓨터 구축 요청해"
- 앤트로픽 "첨단 모델 개발 비용 1년에 10배씩 증가...현재는 1.4조 달해"
- 오픈AI, 브로드컴과 AI 칩 개발 논의...TSMC와는 생산 계약 검토
- "메타도 GPU 10만개 클러스터 구축 중...연말 '라마 4' 훈련에 투입"
- “오픈AI, 자금 문제로 3년 내 MS에 인수될 것”
- 오픈AI, 소프트뱅크·오라클과 데이터센터 합작회사 설립..."4년간 720조 투자"
- "MS, 오픈AI '스타게이트' 어렵다고 판단...독점 공급 해제는 당연"
