마이클 맥너니 슈퍼마이크로 부사장
마이클 맥너니 슈퍼마이크로 부사장

인공지능(AI)의 급속한 발전은 전 세계 기업 및 산업에 혁명을 가져왔다. 실제로 지난 해 '챗GPT'와 대형언어모델(LLM)이 등장한 이후 AI는 주류로 자리 잡았다.

이에 많은 조직이 데이터센터와 AI 기술을 융합하고 워크플로를 개선하기를 희망하고 있지만, 이는 결코 쉬운 일이 아니다. 2024년에는 AI 통합에 대한 수요가 증가함에 따라 조직은 기존 인프라와의 호환성부터 특화된 AI 하드웨어 통합까지 다방면에서 문제 해결을 위해 노력해야 하기 때문이다.

■호환성 측면 탐색

AI 통합을 위해서는 새로운 AI 기술과 기존 데이터센터 인프라 간의 호환성이 보장돼야 한다. 구형 시스템은 높은 확률로 AI 알고리즘의 연산 요건을 처리할 수 없어 성능 병목 현상 및 호환성 문제가 발생할 수 있다. 조직은 이러한 한계를 극복하기 위해 현재 인프라에 대한 신중한 평가 및 AI 워크로드 처리에 필요한 업그레이드를 이루어야 한다.

AI 통합을 복잡하게 만드는 요인은 또 있다. AI 개발에 맞춤화되고 특정 AI 하드웨어에 최적화된 라이브러리와 더불어 텐서플로우 및 파이토치 같은 프레임워크의 빠른 발전이다. 특히 프레임워크는 최신 하드웨어의 기능 및 최적화를 지원하는 업데이트를 자주 배포한다. 결국 소프트웨어 요건과 하드웨어 기능 간의 부조화가 발생할 수 있다. 이는 잠재적으로 최적의 성능 저해 및 불안정화로 이어져 조직 경쟁력을 약화시킬 수 있다.

■전문 AI 하드웨어 통합

데이터센터가 업계 표준에 부합하는 AI를 구현하기 위해선 다량의 정보를 빠르게 처리할 수 있는 고성능 기기가 필요하다. 그러나 대다수의 기업이 여전히 AI를 지원하지 못하는 노후장비를 사용하고 있다. 학습과 개발(L&D)을 위한 AI 모델 개발에는 방대한 양의 데이터 세트 훈련이 필요하다.

따라서 기업은 L&D와 AI 기술 향상을 위해 ▲AMD 인스팅트 MI300 시리즈 가속기▲엔비디아 HGX H100 GPU 또는▲인텔 데이터센터 GPU Max 시리즈처럼 대량의 데이터를 빠르게 학습할 수 있는 고급 기술 투자에 나서야 한다. 고성능 GPU는 여러 개의 연산을 동시에 수행 가능해 훈련 프로세스의 속도를 높일 수 있으며, AI 솔루션의 구축 및 도입 시간을 크게 단축하는 것이 가능하다.

이러한 하드웨어를 기존의 데이터센터 인프라에 통합할 때 배전, 냉각 시스템 그리고 네트워크 배치를 조정하는 작업이 까다로울 수 있다. 그러므로 원활한 연동을 위해서는 IT 팀과 시설 팀 간의 세심한 준비 및 협업이 매우 중요하다.

특히 전력 소모가 크고 발열량이 많은 서버가 갖춰진 데이터센터는 전력 및 냉각 기능이 갖춰져 있지 않은 경우, 인프라 개선에 상당한 비용을 필요로 한다. 또 이러한 특수 장치를 기존 하드웨어 및 소프트웨어 에코시스템에 매끄럽게 통합하기 위해선 신중한 계획과 IT 전문 지식도 요구된다.

동시에 이러한 모델을 실행하고 훈련하는 데에는 고성능 컴퓨팅과 많은 리소스가 필요하다는 점도 주목해야 한다. AI가 요구하는 서버 컴퓨팅의 밀도는 엄청난 양의 열을 방출한다. 이에 수냉식 냉각 기술이 AI를 통합하려는 전 세계의 수 많은 데이터센터에서 우선적으로 도입되고 있는 실정이며, 새로운 세대의 CPU 및 GPU가 출시될 때마다 필수적으로 적용되고 있다.

■프레임워크 활용

AI 환경에는 다양한 프레임워크가 존재하며, 앞서 언급한 바와 같이 각 프레임워크는 고유한 장점과 한계를 지니고 있다. 따라서 특정 AI 애플리케이션에 가장 적합한 프레임워크를 채택하는 것은 최적의 성능 및 확장성을 보장하는 데 필수적이다. 조직은 프레임워크 선택 시 ▲사용 편의성▲성능 벤치마크▲커뮤니티▲엔터프라이즈 지원 등 특정 AI 요건을 고려해야 한다.

선택한 프레임워크를 기존 데이터센터 인프라 및 소프트웨어 툴과 통합하는 과정은 다소 복잡할 수 있다. 호환성 문제 방지와 원활한 통합을 위해 신중한 계획 수립과 실행이 뒷받침되어야 한다. 조직은 채택한 AI 프레임워크를 효과적으로 활용하고 유지 관리하기 위해서 IT 팀의 교육 및 개발에 대한 투자를 고려해야 할 수 있다.

■온프레미스 솔루션을 통한 비용 절감

데이터센터를 자체적으로 운영한다면 비용을 보다 효과적으로 관리할 수 있다. 특히 클라우드 서비스에 영향을 미치는 GPU가 부족할 때 인프라를 내부에서 관리하면 클라우드 기반 솔루션에 대한 지출을 줄이고, 특정 AI 워크로드에 하드웨어를 최적화하는 비용을 절감할 수 있다. 실제로 시장조사기관 인터섹트360 리서치의 최근 연구에 따르면, 응답자 중 69%가 온프레미스 시스템보다 퍼블릭 클라우드를 사용할 때 더 많은 비용이 든다고 답변했다.

이처럼 데이터센터 운영에는 인프라 및 전문 하드웨어 구축을 위한 초기 비용이 소요되지만, 장기적으로는 비용 절감의 기회가 따라온다. 조직은 하드웨어 구성을 AI 요건에 정확히 맞출 수 있는 유연성을 확보하고 호환성 문제 최소화 및 성능 극대화가 가능하며 클라우드 서비스 가용성이나 GPU의 공급 부족으로 인한 가격 변동으로 인한 제약에서 벗어날 수 있다.

■AI의 혁신적인 역량 활용

AI와 데이터센터의 통합은 기술 트렌드에 그치지 않는다. 이는 조직의 운영 방식을 근본적으로 재편하는 혁신적인 동력이다. AI 기술 수용 및 통합과 관련된 문제들을 극복함으로써 조직은 효율성을 높이고 심층적인 인사이트를 확보할 수 있다. 또한 고객에게 뛰어난 경험 제공을 위한 다양한 기회를 마련할 수 있다. 이러한 과정 속에서 기업은 AI 통합을 위해 전략적 예측, 협력을 위한 노력, 그리고 변화에 적응하려는 의지를 갖춰야 한다.

마이클 맥너니 슈퍼마이크로 부사장

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지