인공지능(AI) 인프라 전문 래블업(대표 신정규)은 24일 양재aT센터에서 연례 기술 컨퍼런스 'lab | up > /conf/5'를 열고, 소프트웨어로 AI 컴퓨팅을 극대화하는 기술을 소개했다.
래블업은 핵심 제품이자 생성 AI 훈련 및 서비스 플랫폼인 ‘백엔드닷에이아이’를 통해 모델 미세조정과 구동을 지원해 왔다.
지난해 연례행사에서 선보인 24.09 버전에 이어, 이번에는 ‘25.14’ 버전의 백엔드닷 에이아이를 공개했다. 이를 통해 더 큰 규모의 AI 워크로드를 아우를 수 있게 됐다고 강조했다.
백엔드닷에이아이에 배포된 모델을 활용해 내외부 클라이언트에게 서비스를 제공하려는 기업과 개인 개발자를 위한 플랫폼 ‘아이돌(AI:DOL)’도 소개했다. 채팅 기반 인터페이스(UI) 형태로, 자연어를 기반으로 AI를 설계 및 배포할 수 있는 것이 특징이다. 앞으로는 이미지, 영상, AI 코딩 생성 기능을 추가할 계획이다.
한편, 이날 래블업은 업스테이지 컨소시엄 참여로 진행 중인 ‘국가 독자 AI 파운데이션 모델 개발 프로젝트’를 엔드닷에이아이의 컴퓨팅 효율화 사례로 들었다.
컨소시엄에서는 ‘백인드닷에이아이’를 제공, 분산 딥러닝 훈련을 돕는다. 과제 진행에 따라 GPU 가상화 기술도 고도화할 계획이라고 전했다.
컨소시엄은 전문가 혼합(MoE) 설계 방식을 기반으로 100B 규모의 대형언어모델(LLM) 개발을 목표로 한다. 하드웨어 측면에서는 ‘60노드(480개 GPU) 및 3개의 예비-테스트용 노드’를 활용한다. 노드별 사양은 120코어 CPU, 2 TiB RAM, 엔비디아 'B200' 8장, 400G IB 8포트, 스토리지용 200G RoCE 등으로 구성된다
이처럼 대규모 인프라를 구동하면 고장이 잦다고 설명했다. GPU 언노운(Unknown) 에러는 물론, 스토리지 성능 저하 문제도 피할 수 없다는 것이다. 하루 전기 요금도 300만원에 달한다고 추정했다.
이때, 백엔드닷에이아이를 활용하면 ‘수평 확장’이 가능하다는 것이다. 수십~수백 노드에서 수백~ 수천개의 컨테이너로 구성된 단일 작업 스케줄링을 최적화해 준다는 설명이다. 연산 세션을 자동 재시작하거나 스케줄링을 자동 재시도하는 것도 가능하다.
이에 따라 GPU 500여개에 달하는 인프라와 64테라바이트(TB)에 달하는 처리량이 백엔드닷에이아이를 기반으로 구동되는 화면을 공개했다.
이밖에 차세대 AI 기술 이슈로 ‘비용절감을 위한 연산 단계별 성능 특성 레버리지 극대화’와 모델 컨텍스트 프로토콜(MCP), 에이전트 VM을 위한 개인정보 보호 및 보안 등을 전망했다.
신정규 래블업 대표는 “이번 컨퍼런스는 '컴포저블(Composable) AI'라는 주제로 AI 기술의 조합성과 확장성에 주목했다”라며 “필요에 따라 선택하고 조합할 수 있는 모듈형 AI 아키텍처를 통해, 독립적으로 진화하는 AI 컴포넌트들이 하나의 생태계로 작동하는 새로운 가능성을 제시할 것”이라고 말했다.
장세민 기자 semim99@aitimes.com
