(사진=새미애널리시스)
(사진=새미애널리시스)

인공지능(AI) 붐을 타고 기가와트(GW)급 데이터센터 건설 발표가 이어지는 가운데, 만약 이런 시설들이 실제로 들어서면 미국의 전력망이 버티지 못하고 대규모 정전 사태까지 발생할 수 있다는 분석이 나왔다. 이는 단순히 많은 전기를 소모한다는 것 외에도 데이터센터의 전력 소비 패턴이 일반적이지 않다는 것이 이유로 꼽혔다.

반도체 및 AI 분석 전문 세미애널리시스(SemiAnalysis)는 25일(현지시간) '기가와트 규모의 AI 훈련 부하 변동은 전력망 정전 위험을 의미하는가'라는 보고서를 공개했다.

이에 따르면 미국의 주요 AI 기업들은 최근 GW급 데이터센터 건설을 발표하거나 이미 공사를 시작했다. 현재 세계에서 가장 큰 데이터센터로 알려진 오픈AI의 '스타게이트1'은 소비 전력이 1GW를 넘을 것으로 알려졌다. 또 아마존은 앤트로픽을 위해 현재 2.2GW급 데이터센터를 구축할 것이라고 밝혔다.

텍사스 전력신뢰성위원회(ERCOT)의 자료에 따르면, 무려 108GW가 넘는 대용량 부하가 연결 대기 중이다. 그중 대부분은 데이터센터다. 현재 미국의 최대 부하량은 745GW다.

이 정도의 규모도 100년이나 된 현재 전력망에는 비현실적으로 큰 부담인데, AI 워크로드는 더 큰 문제를 가지고 있다는 것이다.

AI 학습은 몇분의 1초 만에 최대 부하로 치솟았다가 다시 유휴 상태로 전환하는 등 매우 독특한 부하 패턴을 가지고 있다는 설명이다. 모든 GPU가 체크포인트나 대규모 통신이 완료될 때까지 대기하다가 한순간 전체 훈련 작업이 시작되거나 종료될 수 있다는 것이다. 이런 상황이 발생하면 데이터센터 전체의 전력 소비가 순식간에 수십메가와트(MW)의 변동을 초래해 전력망의 한계를 초과할 수 있다.

특히, 필요 이상의 전기가 생산되면 전압과 주파수가 정상 수준보다 높아진다. 수요가 공급을 초과하면 전력 시스템을 손상하거나 회로 보호 장치를 작동하게 만든다. 이런 충격이 가해지면 다른 전력망에도 영향이 전달, 연쇄적인 고장을 유발할 수 있다는 것이다.

현재 전력망은 이처럼 예상치 못하게 상승했다가 감소하는 전력 패턴을 감당하도록 설계되지 않았다는 것이 문제다. 따라서 GW급 규모의 데이터센터 건설에 따른 최악의 시나리오는 수백만명의 미국인이 정전을 경험하는 것이라고 봤다.

이 문제는 이미 주요 AI 회사들에 경각심을 불러일으킨 것으로 알려졌다. 예를 들어 메타는 '라마 3' 학습을 위해 2만4000개의 'H100' 클러스터를 사용했는데, 여기에서 필요한 전력은 고작 30메가와트(MW)에 불과했다. 따라서 엔지니어들은 'pytorch_no_powerplant_blowup=1'와 같은 명령어를 개발, 가상 워크로드를 생성하고 전력 소모를 줄이는 방식을 사용하고 있다.

또 앞으로 건설될 GW급 발전소에서는 전력량 급상승이 모델 개발 자체의 성패를 좌우할 중요한 문제로 떠올랐다는 것이다. 이런 워크로드로 발생할 연간 에너지 비용이 수천만달러에 달하기 때문이다.

따라서 주요 AI 개발사와 하드웨어 업체들은 해결책을 마련하기 위해 일제히 연구를 시작한 것으로 알려졌다.

특히 테슬라는 수백MW~GW 규모의 대용량 배터리를 갖추는 것을 해결책으로 보고 있다. 이것이 '메가팩(MegaPack)'으로 알려진 저장 장치다. 그러나 이런 배터리 에너지 저장 시스템(BESS)은 구축 비용이 엄청난 것으로 알려져 있다.

세미 애널리시스는 지역 계획 당국과의 협력도 강조했다. 지역 당국은 송전 안정성에 미치는 영향을 파악하고 다른 전력망 사용자와의 갈등을 방지하기 위한 연구를 수행하지만, 이는 시간이 많이 소요되고 데이터센터 건설 속도에 비해 뒤처지는 경우가 많다고 지적했다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지