인공지능(AI) 에이전트가 API와 데이터베이스, 소프트웨어 라이브러리 등 외부 도구를 활용해 인간처럼 계획하고 추론하며 작업을 수행할 수 있는지 평가하는 방법이 공개됐다. 즉, 에이전트의 도구 사용 능력을 측정하는 새로운 벤치마크다.
엑센추어는 29일(현지시간) 현실의 다단계 과제를 통해 대형언어모델(LLM)의 도구 활용 능력과 도구 간 협업, 정확한 매개변수 제어, 계획 및 추론 능력을 평가하는 벤치마크 ‘MCP-벤치(MCP-Bench)’를 온라인 아카이브에 발표했다.
MCP-벤치는 모델 컨텍스트 프로토콜(MCP)을 기반으로 한다.
28개의 실제 MCP 서버와 연결돼 금융, 여행, 과학 계산, 학술 검색 등 다양한 분야의 250개 도구를 테스트할 수 있다. 기존 API 기반 벤치마크와 달리, 각 서버는 상호 보완적인 도구를 제공해 실제와 유사한 다단계 과제로 구성할 수 있다.
MCP-벤치의 테스트 과제는 ▲애매한 지시문에서도 적절한 도구를 선택하고 ▲복잡한 목표를 달성하기 위해 여러 단계의 계획을 수립하며 ▲도구 결과를 활용하고 ▲도메인 간 작업을 조율하는 능력 등을 평가한다.
연구진은 MCP-벤치 평가 프레임워크를 도구 수준의 이해와 활용, 계획 단계의 경로 설계, 과제 완료 여부 등 여러 측면으로 구성했다.
그리고 20개의 최신 LLM을 대상으로 실험한 결과, 현실의 다단계 과제에서는 여전히 임무 수행에 많은 어려움이 겪는 것을 확인했다.
기존의 LLM 도구 활용 벤치마크는 대부분 단일 API 호출이나 인위적으로 연결된 단순 워크플로우에 초점을 맞췄다. 따라서 애매한 실제 지시문에서 적절한 도구를 찾고 연결하는 능력, 여러 도메인을 넘나드는 협업, 결과 근거 기반의 답변 도출 능력은 제대로 평가되지 않았다. 이로 인해 많은 모델이 테스트 과제에서는 잘 수행되지만, 실제 복잡한 시나리오에서는 성능이 크게 떨어졌다.
MCP-벤치는 여러 도구를 순서대로 또는 동시에 사용해야 하는 현실적인 작업 흐름을 테스트한다. 과제는 자연어로 애매하게 설명돼 있어 AI 에이전트가 스스로 무엇을 해야 하는지 추론해야 한다. 과제는 평가에 사용되는 정확한 기술 설명과 에이전트가 보는 대화형 자연어 버전 두가지 형태로 제공된다.
적절한 도구 사용 여부, 매개변수 정확성 등 자동 평가 지표와 LLM 기반 심사 방식을 함께 사용한다. 에이전트는 예를 들어 “요세미티 캠핑 여행 계획, 세부 일정과 날씨 예보 포함”과 같은 과제를 받고, 단계별로 어떤 도구를 호출하고 어떤 순서로 활용하며 결과를 어떻게 조합할지를 결정해야 한다.
20개의 최신 LLM을 104개의 과제에 적용한 결과, 대부분 모델이 도구 호출과 매개변수 처리에는 성공했지만, 장기적 다단계 워크플로우에서는 계획과 실행에서 어려움을 겪었다.
특히, 여러 서버에 걸친 과제에서는 작은 모델이 실수하거나 단계를 반복하는 등 비효율적인 수행이 나타났다.
MCP-벤치 코드와 데이터는 현재 깃허브에 공개돼 있다.
박찬 기자 cpark@aitimes.com
