인공지능(AI) 모델을 쉽게 개발할 수 있도록 도와주는 서비스형 API(운영체제와 응용프로그램 사이 통신에 사용되는 언어나 메시지 형식)가 등장했다.
미국 IT 전문매체인 벤처비트는 24일 미국 캘리포니아에 위치한 API 스타트업 어셈블리 AI가 오디오 또는 비디오를 텍스트로 변환할 수 있는 단일 AI 기반 API를 제공한다고 보도했다.
오디오 데이터를 복사, 이해 및 분석하는 모델 내 개발을 지원해 개발자의 역량을 강화하도록 설계한 API다. AaaS 모델로 제공하는 이 API는 요약 및 콘텐츠 조정에서 주제 감지까지 다양한 작업을 수행할 수 있다.
지난 10년간 AI 기술은 패턴 인식, 머신 러닝(ML) 및 예측을 수행하는 신경 네트워크에 점점 더 의존해 왔다. 하지만 수십억 개의 매개 변수로 구성된 ML 모델의 경우 모델이 단일 GPU와 맞지 않아 학습이 더욱 복잡해진다.
GPT-3 및 고퍼(Gopher)와 같은 거대 언어 모델(LLM)은 큰 비용이 들고 컴퓨팅 리소스가 매우 많이 필요해 현금 및 자원이 제한된 조직은 분야에 진입하기 어렵다. 블룸(BLOOM) 또는 메타의 OPT-175B와 같은 숙련된 모델을 운영하려면 상당한 수의 GPU와 전문적인 하드웨어 투자가 필요하다. 소규모 조직에서는 LLM 학습에 필요한 자금을 확보할 수 있더라도 데이터 과학뿐 아니라 병렬 및 분산 컴퓨팅 전문 기술을 습득하기가 어려운 경우가 많다.
서비스형 AI(AIaaS)는 사내에서 소프트웨어 솔루션을 실행하고 개발하기 위한 보다 비용 효율적인 옵션을 제공한다. AIaaS는 최종 사용자가 통합할 수 있는 로우 코드 툴과 API를 제공해 AI 기술의 접근성을 더욱 높일 수 있도록 한다.
‘리포트 앤드 데이터(Reports and Data)’의 새로운 보고서에 따르면 글로벌 AIaaS 시장은 2019년 17억3700만 달러(약 2조3000억원)에서 2027년 341억 달러(약 45조8000억원)로 45.6% 성장할 것으로 예상된다.
이러한 기술을 통해 소규모 기술 기업은 최소한의 노력으로 비용효율적이고 즉시 사용 가능한 솔루션을 통해 AI의 성능을 활용할 수 있다. AIaaS를 사용하면 필요한 툴에 대한 비용을 지불하고 비즈니스 및 데이터 확장에 따라 더 높은 수준으로 업그레이드할 수 있다. 몇 달이 아니라 단 몇 주만에 AIaaS 솔루션을 활용할 수 있다.
어셈블리 AI 창립자이자 CEO인 딜란 폭스는 “당사 API 플랫폼은 개발자들과 제품 팀이 응용 프로그램을 위한 새로운 기능을 개발할 수 있도록 제품에 내장할 수 있는 최첨단 AI 모델을 쉽게 학습시키고 배포할 수 있도록 하는 데 초점을 맞추고 있다”고 밝혔다.
어셈블리 AI의 API 오디오 인텔리전스는 감정 분석, 요약, 실재 감지 및 주제 감지 등의 기능을 통해 오디오 데이터 분석을 제공한다. 이 서비스의 비동기 기록 기능을 통해 사용자는 수백 밀리초 이내에 미리 녹음된 오디오 또는 비디오 파일의 기록을 생성할 수 있다. 또 비디오 파일을 변환해 비디오 파일에서 오디오를 자동으로 떼어낼 수 있는 기능도 갖췄다.
폭스 대표는 "몇몇 가상 회의 및 비디오 플랫폼이 오디오 요약 및 컨텐츠 관리 워크플로우를 자동화하기 위해 어셈블리 AI 모델을 사용하고 있다"면서 "지난 12개월 동안 우리 API로 구축하는 개발자 수가 1000% 이상 늘었다"고 소개했다.
디지털 혁신을 통해 증가하는 기대를 충족하기 위해 연결된 환경을 개발하기 위해 시스템을 통합하고 데이터를 통합하는 유연하면서도 효율적인 리소스와 툴이 반드시 필요하다.
최근까지 많은 소규모 기업은 사내 시스템 개발, 인력 및 유지 관리 비용, 다양한 작업에 대한 하드웨어 변경이 필요하기에 AI 기반 LLM을 비즈니스에 사용하기 어려웠다.
폭스 대표는 "음성 인식, 요약 및 오디오 내장 같은 작업에 LLM이 상당한 이점을 제공할 수 있지만 컴퓨터 관점에서 진입 장벽은 계속 높아지고 있다"고 설명했다.
그는 또 "최첨단 LLM은 50억 개의 매개 변수 모델을 성공적으로 실행하기 위해 수백 개의 GPU를 필요로 한다"면서 "때문에 중소기업과 신규 신생 기업이 필요한 정확도를 제공하기가 더욱 어려워진다"고 지적했다.
2016년 시스코 시스템에서 머신 러닝 엔지니어로 근무하던 폭스는 음성 인식 기반의 AI 제품에 통합될 수 있는 서비스형 AI 옵션을 찾고 있었다. 사용 가능한 음성 인식 벤더들이 엄청난 컴퓨터 리소스가 필요한 구형 ML 기술을 기반으로 제작돼 정확도가 떨어졌고, 시스템의 호환성 테스트를 위한 통합 및 실행이 어려웠다.
그는 AIaaS를 통해 제공되는 API를 통합하면 소규모 기업에 대체 솔루션을 제공할 수 있다며 특히 최첨단 모델을 학습시키고 배포할 때 사내 컴퓨팅 인프라의 필요성을 없앨 수 있다고 설명했다.
폭스 대표는 “보다 정확한 음성 인식 모델을 만들기 위해 최첨단 딥러닝 모델을 사용하는 데 관심이 있었다”며 ”초기 아이디어는 최신 딥러닝 연구를 활용해 정확한 음성 인식 모델을 구축한 다음 간단한 API 구조를 통해 이러한 모델을 개발자에게 공개할 수 있다면 어떨까 생각했다”고 덧붙였다.
응용 프로그램 또는 구성 요소가 다른 응용 프로그램과 상호 작용하는 메커니즘 집합을 설정하기 위해, API 통합은 지속적인 솔루션이라고 할 수 있다.
클라우드 엘리먼트(Cloud Elements)에서 실시한 설문 조사에 따르면 응답자의 83%는 API 통합을 디지털 혁신 이니셔티브와 클라우드 애플리케이션 도입에 따른 비즈니스 전략의 중요한 부분으로 고려하고 있다고 답했다.
클라우드 기반 제품과 앱이 폭발적으로 증가하면서 기업들은 API 통합의 중요성을 인식하고 있다. 한 보고서에 따르면 기술 분석가들은 2022년 API 투자가 37% 증가할 것으로 예상하고 있다.
API는 유연성을 제공해 기업이 감독 및 무감독 방식의 머신 러닝 작업을 위한 정교한 파이프라인을 생성할 수 있도록 한다. 그 결과, API는 자동화 및 효과적인 통합 전략을 통해 최종 사용자 환경을 개선하고 운영 비용과 개발 시간을 대폭 줄일 수 있다.
이러한 통합을 통해 조직의 핵심 제품이 될 수 있는 완전히 새로운 제품을 생산할 수 있고, 이전에 존재하지 않았던 서비스를 개발할 수 있는 앱 간의 새로운 기능을 생성할 수 있다. API는 제품 개발, 비즈니스 전략 및 확장성의 중요한 부분이 되고 있기에 API를 효율적으로 간소화하기 위해 쉽게 통합할 수 있어야 한다.
폭스 대표는 “개인 정보에 초점을 맞추면서 보다 개발자 친화적인 훌륭한 대안을 기업에 제공하는 것을 목표로 한다”며 “당사 API 플랫폼에는 오디오를 넘어서는 다양한 작업을 위한 최첨단 AI 모델 카탈로그가 포함돼 있다. 이 모델은 쉽게 통합할 수 있도록 지속적으로 학습되고 유지 관리된다“고 설명했다.
그는 향후 회사의 초점은 트랜스포머, 대규모 교육 컴퓨팅 클러스터 및 데이터 집합과 같은 기술을 API 형태로 최종 사용자에게 제공해 보다 정확한 음성 인식 모델을 개발하는 것이라고 덧붙였다. 사용하는 제품 및 서비스의 생태계에 원활하게 통합되는 매우 기능적인 API를 제공하는 유연한 플랫폼에 대한 요구가 증가하고 있는 상황이다.
폭스 대표에 따르면 이러한 통합이 AIaaS와 같은 서비스를 통해 실현되고 있고, 이를 통해 기업들이 서비스, 데이터 분석, 자동 오디오 및 비디오 제작 등 사용 사례에 AI를 활용할 수 있게 된다고 설명했다.
그는 “이제 개발자는 이러한 기능을 구축하는 데 필요한 모든 AI 기능을 제품에 더욱 쉽게 내장할 수 있다”며 “AIaaS는 배포 문제도 간단해졌고, 이를 통해 대규모 모델을 낮은 지연 시간으로 비용 효율적으로 배포할 수 있게 됐다”고 밝혔다.
AI타임스 이한선 객원 기자 griffin12@gmail.com
