복잡한 다단계 작업에서 대형언어모델(LLM) 기반 에이전트의 장기 추론 능력을 크게 향상할 새로운 해법이 등장했다. 계획 오류와 효율성 한계를 동시에 극복할 수 있는 프레임워크로, AI 에이전트 연구의 패러다임 전환을 예고한다는 설명이다.
칭화대학교와 일리노이대학교 어바나샴페인 연구진은 14일(현지시간) LLM 기반 에이전트의 장기 과업 수행 능력을 획기적으로 개선하는 새로운 프레임워크 ‘EAGLET’을 온라인 아카이브를 통해 공개했다.
AI 에이전트는 여러 단계를 거쳐야 하는 복합 작업에서 계획 착오와 환각, 비효율적인 시행착오 문제를 흔히 겪는다. 최고 수준의 모델조차도 임무가 길어질수록 실패 확률이 높아지고, 작업 시간이 수시간에 이르면 성능이 급격히 저하되는 것으로 나타났다.
EAGLET은 이런 한계를 해결하기 위해, 실행기(executor) 모델과 별도로 작동하는 ‘글로벌 플래너(global planner)’ 모듈을 도입했다. 플래너는 사용자의 프롬프트나 환경 지시를 해석해 고수준 계획을 생성하고, 이를 기반으로 에이전트가 일관성 있고 효율적인 작업 경로를 따르도록 했다.
특히, 기존 모델을 재학습하거나 수작업으로 데이터를 라벨링할 필요가 없다. 기존 워크플로우에 플러그앤플레이(plug-and-play) 방식으로 통합할 수 있어, 실제 시스템 적용이 용이하다고 전했.
연구진은 EAGLET의 플래너를 두 단계의 비지도 학습을 통해 훈련했다.
먼저, 계획 합성(Synthetic Planning) 단계에서는 'GPT-5'와 '딥시크-V3.1-싱크' 같은 고성능 LLM을 활용해 고품질의 계획 데이터를 자동으로 생성했다. 이렇게 만들어진 계획들은 연구진이 새롭게 고안한 ‘동형 합의 필터링(Homologous Consensus Filtering)’ 기법을 거쳐, 여러 후보 중 논리적 일관성과 실행 가능성이 가장 높은 계획만 선별된다.
그 다음 규칙 기반 강화 학습(Rule-based Reinforcement Learning) 단계에서, 연구진은 실행기 역량 향상 보상(ECGR)’이라는 새로운 보상 함수를 도입했다. ECGR은 생성된 계획이 상위 플래너와 하위 실행기 모두의 성능 향상에 얼마나 기여하는지를 측정, 플래너가 일반화된 계획 능력을 습득하도록 돕는다.
이 과정은 기존의 강화 학습(RL) 기반 접근법보다 학습 비용을 약 8배 절감하면서도 더 높은 성능을 보여, 장기적 과제를 수행하는 LLM 에이전트의 효율성과 신뢰성을 크게 향상한다는 설명이다.
연구진은 EAGLET의 성능을 검증하기 위해 '사이언스월드(ScienceWorld)' 'ALF월드(ALFWorld)' '웹숍(WebShop)' 등 세가지 대표적인 장기 과업 벤치마크에서 실험을 진행했다.
사이언스월드는 텍스트 기반 실험실 환경에서 과학 실험을 수행하는 시뮬레이션이다. ALF월드는 가정 내 다양한 활동을 자연어 지시를 통해 수행하는 가상 환경이며, 웹숍은 온라인 쇼핑 인터페이스에서 목표를 달성하기 위한 행동을 평가하는 벤치마크다.
테스트 결과, EAGLET을 적용한 에이전트는 비계획형 에이전트뿐 아니라 MPO, 노우에이전트(KnowAgent) 등 기존의 다른 계획형 기법과 비교했을 때 모든 벤치마크에서 우수한 성능을 보였다. 이는 글로벌 플래너가 장기적 추론 과정에서의 오류 누적을 효과적으로 완화하고, 복잡한 다단계 과업 수행의 안정성을 크게 높였다는 것을 보여 준다.
예를 들어, '라마-3.1-8B-인스트럭트'의 평균 점수는 39.5에서 59.4로 상승했다. 'GPT-4.1'은 75.5에서 82.2로, 'GPT-5'는 84.5에서 88.1로 개선됐다. 또 GPT-4.1 에서는 평균 작업 단계 수가 13.0에서 11.1로, GPT-5는 11.4에서 9.4로 줄어 실행 효율성도 향상한 것으로 확인됐다.
이처럼, 이번 연구는 에이전트가 작업 완료에 필요한 단계를 줄여, 비용 절감에 도움이 될 수 있다는 것을 보여 준다.
하지만 논문으로만 공개됐을 뿐, 코드나 구성 요소들이 오픈 소스로는 공개되지 않았다. 또 실제 기업 환경에 배포할 때 어떤 규모의 모델에 적합한지 등의 구체적인 지침이 없어, 후속 발표를 기다려야 한다는 단점이 있다.
박찬 기자 cpark@aitimes.com
