(사진=엔비디아)
(사진=엔비디아)

엔비디아가 비디오나 이미지 콘텐츠를 분석하는 인공지능(AI) 에이전트를 손쉽게 구축하는 도구를 공개했다. 이를 통해 이제 모든 산업 분야에서 방대한 양의 시각 데이터를 검색하고 요약할 수 있게 됐다는 설명이다.

엔비디아는 4일(현지시간) 모든 산업 분야의 개발자가 비디오 및 이미지 콘텐츠를 분석하는 시각 AI 에이전트 구축을 돕는 비디오 검색 및 요약 도구 ‘엔비디아 AI 블루프린트(Nvidia AI Blueprint)’를 공개했다.

이는 카메라와 IoT 센서, 차량 등의 장치에서 시각 정보를 활용하는 AI 에이전트 개발을 지원한다. 에이전트는 사용자 질문에 답하고, 요약을 생성하며, 특정 시나리오에 대한 경고를 활성화할 수 있다.

비전 AI 애플리케이션을 구축하기 위한 개발자 도구 세트 '메트로폴리스(Metropolis)'의 일부인 블루프린트는 엔비디아의 컴퓨터 비전 및 생성 AI 기술을 결합한 맞춤형 워크플로우다.

시각 컴퓨팅 개발자들에게 대량의 실시간 비디오 스트림이나 데이터 아카이브를 수집하고 이해할 수 있는 생성 AI 기반 에이전트를 구축하고 배포하기 위한 최적화된 소프트웨어 전체 제품군을 제공한다.

특히 코딩 대신 자연어 프롬프트로 사용자 정의할 수 있어, 다양한 산업 애플리케이션에서 가상 비서를 손쉽게 구축할 수 있다는 설명이다.

시각 AI 에이전트는 컴퓨터 비전과 언어 이해를 결합해 물리적 세계를 해석하고 추론 작업을 수행하는 비전언어모델(VLM)에 의해 구동된다.

엔비디아 AI 블루프린트는 엔비디아 '빌라(VILA)'와 같은 VLM, 메타의 '라마 3.1 405B'와 같은 대형언어모델(LLM), GPU 가속 질의 응답 및 상황 인식 검색 증강 생성용 AI 모델을 위한 엔비디아 NIM 마이크로서비스로 구성됐다.

다른 VLM이나 LLM, 그래프 데이터베이스 등으로 쉽게 교체할 수 있으며, '네모(NeMo)' 플랫폼을 사용해 환경과 사용 사례에 맞게 미세조정할 수 있다.

엔비디아는 "AI 블루프린트를 채택하면 다양한 산업 분야의 애플리케이션을 위한 생성 AI 모델을 조사하고 최적화하는 데 몇달의 노력을 절약할 수 있다"라고 강조했다.

또 "GPU에서 엣지, 온프레미스, 클라우드 등에 배포하면 비디오 아카이브를 검색해 중요한 순간을 식별하는 프로세스를 크게 가속화할 수 있다"라고 덧붙였다.

이 밖에도 AI 에이전트는 창고 환경에서 안전 규칙 위반 사항을 경고할 수 있고, 혼잡한 교차로에서는 교통 충돌을 식별하고 보고서를 생성할 수 있다고 소개했다. 공공 인프라 분야의 유지 보수 중 항공 영상 검토에도 유용하다고 전했다.

이 도구는 무료로 경험하고 다운로드할 수 있다. 현재 액센츄어, 델, 레노버 등이 이를 활용한다고 밝혔다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지