백엔드닷에이아이(Backend.AI) 플랫폼으로 AI 인프라 효율적 관리
7월 엔비디아로부터 DGX-레디 소프트웨어 인증...아태지역에서 유일
AI에 필요한 연구개발과 서비스 통합 관리 가능
'GPU 분할 가상화' 기술로 GPU 사용률 향상 높여

김정묵 래블업 최고운영책임자(COO).(사진=래블업 행사 캡쳐, 편집=임채린 기자)
김정묵 래블업 최고운영책임자(COO).(사진=래블업 행사 캡쳐, 편집=임채린 기자)

래블업이 인공지능(AI) 기업이 고민하는 인력부족 문제와 고가의 그래픽처리장치(GPU) 서버 문제를 기술적으로 극복할 수 있다고 밝혔다. 자사가 보유한 '백엔드닷에이아이(Backend.AI)' 플랫폼으로 AI 개발에 필요한 연산 자원과 개발 환경 관리, 인프라 관리 등을 자동화할 수 있다는 설명이다.

김정묵 래블업 최고운영책임자(COO)는 7월 28일 토크아이티가 주최한 온라인 세미나에서 "최근 AI 인프라가 급속도로 증가하면서 AI 업계는 인력 부족 문제에 처해 있다"면서 "래블업은 AI 회사가 인프라나 환경 관리 등을 시스템에 맡겨 놓고 AI 개발이라는 핵심 역량에 집중할 수 있도록 솔루션을 제공하고 있다"고 말했다.

백엔드닷에이아이는 래블업이 개발한 클라우드 리소스 관리 플랫폼이다. 하나의 플랫폼에서 AI, 머신러닝(ML), 고성능컴퓨팅(HPC)에 필요한 연구개발(R&D)과 비즈니스 서비스, AI 서비스 추론 등을 관리하게 해준다. 

사용자는 해당 기능을 통해 분산처리, 재사용성에 특화된 파이프라인 설계 기능을 제공받을 수 있다. 또 분산·보안 환경에 필요한 프록시 서버와 데이터 입출력 부담을 분산하는 스토리지 프록시 등의 기능을 사용할 수 있다. 설계나 보안, 데이터 입출력 등의 업무를 플랫폼이 도와준다고 이해하면 된다. 그만큼 개발자에겐 개발 업무에 집중할 수 있는 환경이 주어진다.

이 플랫폼은 비용 절감 효과도 있다. 'GPU 분할 가상화(Fractional GPU)' 기술로 고가 GPU를 유연하게 자원 관리를 할 수 있도록 도와준다. 컨테이너별로 GPU 램(RAM)을 0.1GPU, 0.2GPU, 2.7GPU로 할당한다. 교육이나 추론 워크로드 등 큰 규모의 GPU가 필요하지 않은 곳에는 단일 GPU를 공유하고, 모델 훈련 등 대규모 워크로드에는 다중 GPU를 할당하는 방식이다.

김정묵 COO는 "사용자는 고가의 하드웨어인 GPU의 사용률 향상을 통해 구매 비용을 줄일 수 있고 훈련용 GPU를 분할해 추론이나 교육용으로도 사용할 수 있다"고 설명했다.

이 기술은 지난 7월 엔비디아로부터 DGX-레디 소프트웨어 인증을 받았다. 엔비디아 DGX-레디 소프트웨어는 엔비디아 DGX 시스템의 클러스터에서 사용하기 위해 완벽한 테스트와 인증 과정을 마친 검증된 엔터프라이즈급 소프트웨어 솔루션을 의미한다. 이 인증을 받은 건 아태지역에서 래블업이 유일하다.

백엔드닷에이아이는 AI 모델의 급격한 성장으로 AI 인프라 관리에 어려움을 겪는 업체의 어려움을 줄여줄 것으로 전망된다. 김 COO는 "AI 업체는 부족한 인력으로 AI 인프라 관리, 데이터 수집, 검증, 리소스 관리 등 많은 업무를 해야 하는 어려움에 직면해 있다"면서 "AI 전문가로 구성된 래블업은 AI 개발자가 처한 어려움과 앞으로의 어려움을 잘 알기에 이 부분을 해결하고자 계속 노력하고 있다"고 말했다.

실제로 A대학은 이 플랫폼을 사용해 GPU를 분할함으로써 제한된 개수의 GPU로 많은 학생이 동시에 사용할 수 있는 시스템을 구현했다. 학교 안에서 사용 가능한 웹 그래픽사용자인터페이스(GUI)로 주요 기능을 제공해 전담 관리자가 없이도 해당 시스템을 운영하도록 했다.

AI 인프라를 대규모로 구축한 사례도 있다. B사는 해당 플랫폼을 도입해 기존 리소스와 통합 관리할 수 있는 시스템을 구현했다. 최신 GPU 노드들을 기존 노드들과 통합 관리해 연산 자원 사용 효율을 대폭 높였다. 또 기존 분석·모델링 환경을 계속 유지하면서 새로운 하드웨어 혜택도 누리게 됐다.

김 COO는 "백엔드닷에이아이는 독자적으로 개발한 GPU 분할 가상화로 유연한 자원 관리가 가능한 게 차별화된 강점"이라며 "이미 많은 기업과 기관에서 해당 플랫폼을 도입해 비용을 절감하고 효율을 높이고 있다"고 밝혔다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사] 노타, 디바이스에서 데이터 처리하는 ITS 기술 개발...엔비디아 젯슨 보드 활용

[관련기사] "AI 탑재 4D 이미지 레이더, 자율주행 넘어 모든 분야 본다"...김용환 스마트레이더시스템 대표 인터뷰

키워드 관련기사
  • 만 19세 청년, 가상현실로 AI 데이터 확보 문제 해결 방안 마련...김이삭 'K-Digital Training 해커톤' 대통령상 수상자 인터뷰
  • '임금부터 NO업데이트까지'...데이터 라벨링 이래서 문제였다
  • 네이버 관계자, AI 인력 부족에 "실력만 있으면 고등학생도 괜찮다"