마젠틱-원의 작업 수행 예 (사진=MS)
마젠틱-원의 작업 수행 예 (사진=MS)

마이크로소프트(MS)가 하나의 총괄 인공지능(AI) 에이전트가 여러 보조 에이전트를 구동하여 서로 협력하고, 다양한 시나리오에서 복잡하고 여러 단계로 구성된 작업을 완료할 수 있게 하는 다중 에이전트 프레임워크를 공개했다.

MS는 4일(현지시간) 새로운 다중 에이전트 프레임워크 ‘마젠틱-원(Magentic-One)’을 공개했다.

MS는 마젠틱-원을 조직의 일상적인 운영이나 개인의 일상 생활에서 발견되는 여러 단계가 필요한 작업을 어떻게 해결할 수 있는지를 자율적으로 알아내는 '범용 에이전트 시스템'이라고 설명했다. 

총괄 에이전트인 오케스트레이터(Orchestrator)가 네개의 다른 에이전트를 지휘하여 작업을 해결하는 다중 에이전트 아키텍처를 채택했다. 오케스트레이터는 계획을 세우고 진행 상황을 추적하며 오류가 발생할 경우 재계획해 복구하는 동시에 웹 브라우저 조작이나 로컬 파일 탐색, 파이썬 코드 작성 및 실행과 같은 작업을 수행하는 전문 에이전트들을 지휘한다.

마젠틱-원 아키텍처 (사진=MS)
마젠틱-원 아키텍처 (사진=MS)

웹서퍼(Websurfer) 에이전트는 웹 브라우저를 제어해 웹사이트로 이동하거나 웹 검색을 수행할 수 있다. 또 클릭과 입력이 가능해 최근 출시된 앤트로픽의 '컴퓨터 유즈(Computer Use)'와 유사하게 콘텐츠를 요약할 수도 있다.

파일서퍼(FIleSurfer) 에이전트는 로컬 파일을 읽고 디렉토리를 나열하며 폴더를 탐색한다. 코더(Coder) 에이전트는 코드를 작성하고 다른 에이전트로부터 받은 정보를 분석해 새로운 산출물을 생성한다. 컴퓨터터미널(ComputerTerminal) 에이전트는 코더 에이전트의 프로그램이 실행될 수 있는 콘솔을 제공한다.

이처럼 마젠틱-원의 에이전트들은 오케스트레이터에게 다양한 문제를 해결하는 데 필요한 도구와 기능을 제공하며, 동적이고 끊임없이 변화하는 웹과 파일 시스템 환경에 자율적으로 적응하고 행동할 수 있는 능력을 제공한다.

마젠틱-원은 에이전트에 여러 모델을 배치할 수 있다. 예를 들어 오케스트레이터 에이전트에 추론 대형언어모델(LLM)을, 다른 에이전트에는 다양한 LLM이나 소형언어모델(sLM)을 사용할 수 있다.

MS는 오케스트레이터 에이전트와 코더에는 오픈AI 'o1-프리뷰'를 사용하고, 다른 에이전트는 'GPT-4o'를 사용해 마젠틱-원을 구성했다고 밝혔다.

깃허브에서 오픈 소스로 제공되며, 상업적 용도로도 사용할 수 있다.

MS는 이날 에이전트 시스템을 테스트하기 위한 오픈 소스 에이전트 평가 도구 '오토젠벤치(AutoGenBench)'도 공개했다.

또 지난달 출시한 AI 에이전트 도구 ‘옴니파서(OmniParser)’는 허깅페이스에서 다운로드 1위에 올랐다. 옴니파서는 스크린샷을 AI 에이전트가 이해하기 쉬운 형식으로 변환하는 생성 AI 모델이다. 이처럼 AI 에이전트 분야에서 잇달아 연구 결과를 내고 있다.

한편, 기술 기업들은 AI 오케스트레이션 프레임워크, 특히 에이전트 워크플로우를 관리하는 시스템에서 경쟁하기 시작했다.

오픈AI는 에이전트가 협업을 주도할 수 있는 간단하면서도 유연한 방법을 제공하는 '스웜(Swarm)' 프레임워크를 공개한 바 있다. 크루AI의 멀티 에이전트 빌더도 에이전트를 관리할 수 있는 방법을 제공한다.

그동안 대부분 기업들은 에이전트 프레임워크 구축을 돕기 위해 랭체인(LangChain)을 활용해 왔다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지