(사진=IBM)
(사진=IBM)

IBM이 클라우드에 기반 모델(Foundational Model) 연구 개발을 지원하기 위한 AI 슈퍼컴퓨터 ‘벨라(Vela)’를 구축했다고 벤처비트가 7일(현지시간) 보도했다.

초거대 AI라 불리는 기반 모델은 광범위한 데이터 세트로 훈련한다. 수십억개 이상의 매개변수를 다룰 정도로 방대해 교육을 위해서는 강력한 컴퓨팅 파워가 필요하다.

IBM이 클라우드에 슈퍼컴퓨터 '벨라'를 구축한 것도 이와 같은 맥락이다. 다양한 종류의 애플리케이션을 위한 개별 AI 모델 교육에 활용하겠다는 계획이다.

탈리아 게르손 IBM 하이브리드 클라우드 인프라 연구 책임자는 "모든 기초 모델의 연구 및 개발은 벨라 시스템 및 IBM 클라우드의 해당 스택에서 실행된다"고 말했다.

IBM은 기후 과학을 위한 기반 모델 구축을 지원하기 위해 NASA와 파트너십을 발표했다. 또 생명과학을 위한 기반 모델이나 혁신적인 위협 탐지 기술을 위한 사이버 보안용 기반 모델을 연구하는 등 다양한 기반 모델 포트폴리오를 구축하고 있지만 GPT-3과 같이 잘 알려진 일반 기반 모델과 직접 경쟁하지는 않을 계획이다.

게르손은 "우리는 일반 기반모델을 구축하는 데 초점을 맞추지 않는다"며 "기업 사용 사례에 엄청난 비즈니스 가치가 있다고 생각하기 때문에 기반 모델에 관심이 있다"고 말했다.

벨라는 x86 실리콘, 엔비디아 GPU 및 이더넷 기반 네트워킹을 포함한 업계 표준 하드웨어를 사용하는 클라우드 기반 시스템으로 설계됐다. 기반 모델 교육을 가능하게 하는 소프트웨어 스택은 쿠버네이츠, 파이토치 및 레이를 포함한 일련의 오픈 소스 기술을 사용한다. 

게르손은 "우리는 기반 모델에 대한 이 기술 개념이 엄청나게 파괴적인 잠재력을 가지고 있다고 생각한다"며 "따라서 사업부 및 회사로서 우리는 이 기술에 막대한 투자를 하고 있다"고 말했다.

그러나 벨라는 IBM이 지금까지 구축한 다른 슈퍼컴퓨터 시스템과 다르다. 우선 벨라는 AI에 최적화되어 있으며 고성능 컴퓨팅(HPC) 시스템에서 일반적으로 발견되는 더 이색적이고 값비싼 장비와 달리 x86 상용 하드웨어를 사용한다.

벨라의 각 노드에는 한 쌍의 인텔 제온 스케일러블 프로세서가 있다. 또한 각 노드는 80GB HMB가 있는 8개의 엔비디아 A100를 탑재하고 있다. 각 컴퓨팅 노드는 초당 100기가비트의 여러 이더넷 네트워크 인터페이스를 통해 연결된다. 

특히 벨라는 클라우드 기반으로 제작됐다. 즉 쿠버네이츠및 컨테이너를 실행하여 애플리케이션 워크로드를 지원한다. 벨라는 또한 기계학습(ML) 훈련을 위해 파이토치를 실행하도록 최적화되었으며 레이를 사용해 워크로드를 확장하는 데 도움이 된다.

IBM은 또한 새로운 클라우드 기반 슈퍼컴퓨터를 위해 MCAD(multicluster app dispatcher)라는 새로운 워크로드 스케줄러를을 개발했다. 

박찬 위원 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지