(사진=셔터스톡)
(사진=셔터스톡)

오픈AI가 인공지능(AI) 에이전트 개발 스택에 대한 핵심 업데이트를 발표했다. 개발자 친화적이면서도 음성 중심의 실시간 인터페이스를 갖춘 AI 에이전트를 구축할 수 있는 기반을 강화하겠다는 의도다. 

오픈AI는 3일(현지시간) AI 에이전트 구축 프레임워크에 ▲타입스크립트(TypeScript) 기반 에이전트 SDK(Agents SDK) 지원 ▲음성 인터페이스 특화 ‘리얼타임에이전트(RealtimeAgent)’ 도입 ▲리얼타임 API(Realtime API) 세션 추적 기능 ▲음성-음성 변환 모델 업그레이드 등 4가지 핵심 업데이트를 발표했다. 

먼저, 기존에 파이썬으로만 제공되던 에이전트 SDK(Agents SDK)가 이제는 타입스크립트 버전으로도 나왔다.

덕분에 자바스크립트와 Node.js 환경에서 개발하는 개발자들도 같은 기능을 사용할 수 있게 됐다. 이 SDK에는 에이전트 간 작업을 넘겨주는 핸드오프(Handoffs) 기능, 동작 범위를 제한하는 가드레일(Guardrails) 기능, 실행 과정을 기록하는 추적(Tracing) 기능, 그리고 단계별 상태 정보를 주고받는 MCP((Model Context Protocol) 기능들이 포함됐다.

이를 통해 웹과 클라우드 환경 모두에서, 프론트엔드와 백엔드에서 AI 에이전트를 쉽게 만들고 배포할 수 있다. 관련 개발자 문서는 ‘openai-agents-js’에서 확인할 수 있다.

지연 시간에 민감한 음성 애플리케이션을 위해 새로운 리얼타임에이전트 기능도 추가됐다.

음성 입력과 출력, 대화 중 상태 유지, 그리고 사용자가 말을 중간에 끊을 때 대응하는 기능을 제공한다. 특히 ‘HITL(Human-In-The-Loop)’ 수동 승인 기능 덕분에 에이전트가 실행되는 도중에 작업을 멈추고 현재 상태를 저장한 뒤, 사람이 직접 확인하고 승인을 해야만 다시 실행을 이어갈 수 있어, 감독이나 규정 준수가 중요한 분야에서 유용하게 사용될 수 있다.

워크플로는 오픈AI의 HITL 문서에 자세히 설명돼 있다.

리얼타임에이전트 기능을 더 잘 활용할 수 있도록, 실행 과정을 보여주는 대시보드 '트레이스(Traces)'가 음성 에이전트 세션도 추적할 수 있도록 확장됐다.

따라서 SDK를 통해 시작됐든 API 호출로 직접 시작됐든 모든 리얼타임 API 세션을 추적할 수 있다. 이 기능으로 음성 입력과 출력, 사용된 도구와 그 설정값, 사용자가 대화를 중단하거나 에이전트가 다시 작동하는 과정 등이 한눈에 볼 수 있어, 텍스트 기반과 음성 기반 에이전트 모두에 대해 일관되고 체계적인 감사가 가능해졌다.

세부 정보는 음성 에이전트 가이드에서 확인할 수 있다.

이와 함께 실시간 음성 대화를 지원하는 음성-음성 변환 모델도 업그레이드됐다.

이번 개선으로 음성 반응 속도가 빨라지고, 더욱 자연스러운 음성이 생성되며, 대화 중 사용자가 말을 끊었을 때도 부드럽게 대처할 수 있게 됐다. 이를 통해 대화형 AI가 즉각적이고 다양한 억양으로 더 자연스럽게 소통할 수 있게 됐다.

이번 업데이트를 통해 현실 세계 애플리케이션에 적용 가능한 실용적인 AI 에이전트 구축에 한층 더 다가섰다는 평이다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지