(사진=아카이브)
(사진=아카이브)

구글이 이미지 생성에 활용되는 ‘확산 모델(diffusion model)’에서 착안, 초안을 점차 다듬는 방식으로 정확하고 일관된 연구 보고서를 완성하는 새로운 인공지능(AI) 에이전트를 선보였다.

구글은 6일(현지시간) 온라인 아카이브를 통해 복잡한 주제에 대한 연구 보고서 생성 능력을 극대화한 AI 연구 에이전트 ‘TTD-DR(Test-Time Diffusion Deep Researcher)’에 대한 연구 결과를 발표했다.

이 에이전트는 단순한 검색과 요약을 넘어, 인간 연구자가 초안을 작성하고 정보를 찾아가며 수차례 수정하는 과정을 모방해 더 정확하고 논리적인 보고서를 생성하는 것이 특징이다.

TTD-DR 개요 (사진=아카이브)
TTD-DR 개요 (사진=아카이브)

TTD-DR은 기존의 심층 연구 에이전트들이 겪는 한계를 해결하기 위해 설계됐다. 기존 에이전트는 계획하고, 정보를 찾고, 글을 쓰는 과정을 순서대로만 진행해 정보 사이 연결을 잘 놓치거나 전체 흐름을 파악하기 어려웠다는 것이다.

반면, TTD-DR은 ‘초안-검색-수정’의 반복 과정을 도입해, 작성된 초안을 점차 정교하게 다듬는 방식으로 동작한다.

이 과정은 이미지 생성에 활용되는 확산 모델에서 착안한 것이다. 초기에는 불완전한 노이즈(초안)를 만들고, 이후 반복적으로 외부 정보를 검색해 오류를 수정하고 세부 내용을 보강하는 구조다.

TTD-DR은 두가지 핵심 메커니즘을 기반으로 한다. 먼저 ‘검색 기반 디노이징(Denoising with Retrieval)’은 단계마다 초안에 기반한 새로운 검색 쿼리를 생성하고 이를 바탕으로 내용을 업데이트한다.

다음으로 ‘자기 진화(Self-Evolution)’는 계획 수립, 질문 생성, 답변 통합 등 에이전트 내부 구성 요소들이 독립적으로 성능을 향상, 전체 보고서의 완성도를 높인다.

이 시스템은 구글의 AI 워크플로우 플랫폼인 에이전트 개발 키트(ADK) 위에 구축됐으며, 핵심 모델로는 '제미나이 2.5 프로'가 사용됐다. 아키텍처상 다른 모델로 대체가 가능하다.

벤치마크 결과 (사진=아카이브)
벤치마크 결과 (사진=아카이브)

성능 평가에서 기존 '딥 리서치(Deep Research)' 에이전트들보다 우수한 성능을 보였다.

특히 장문 연구 보고서를 생성하는 '딥컨설트(DeepConsult)'와 '롱폼 리서치(LongForm Research)' 벤치마크에서 오픈AI 딥 리서치와 비교해 각각 69.1%, 74.5%의 승률을 기록했다.

또 짧은 정답을 요구하는 'HLE-서치(Humanity’s Last Exam-Search)'와 'HLE-풀(HLE-Full)' 'GAIA' 등의 복잡한 다단계 추론 벤치마크에서도 각각 4.8%, 7.7%, 1.7%의 성능 우위를 보였다.

구글은 TTD-DR이 텍스트 리서치에 그치지 않고, 복잡한 코드 작성이나 재무 모델 설계, 다단계 마케팅 캠페인 개발 등 다양한 작업에 활용될 수 있도록 확장할 계획이다.

초안을 바탕으로 외부 도구와 정보를 결합해 단계적으로 완성도를 높이는 이 구조는 다양한 기업용 AI 에이전트의 기반 기술로 자리 잡을 가능성이 크다는 평이다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지