세일즈포스가 인간 대신 마우스와 키보드를 사용하는 차세대 '그래픽 사용자 인터페이스(GUI) 에이전트'를 공개했다. 이 분야 경쟁자인 오픈AI의 CUA(Computer-Using Agent)를 뛰어넘는 성능으로 주목받고 있다.

세일즈포스 AI 리서치는 9일(현지시간) 새로운 GUI 에이전트 ‘GTA1’에 관한 논문을 아카이브에 게재했다.

GTA1은 실제 운영체제 환경에서 실행되도록 설계됐다.

기존 모델들이 겪던 두가지 핵심 문제, 즉 '모호한 작업 계획 수립(Planning Ambiguity)'과 '정확하지 않은 행동 실행(Grounding Precision)'을 동시에 해결하는 데 초점을 맞췄다.

이제까지 상당수 GUI 에이전트는 사용자의 지시를 마우스 클릭이나 키보드 입력, 스크롤 등 행동으로 변환하고, 동작 이후 UI 변경 사항을 관찰하고 다음 단계를 계획하는 식으로 작동했다.

그러나 실행 경로는 하나가 아닌 여러개가 가능하고, 경로마다 효율이나 안정성이 달라지는 문제점이 존재했다. 또 화면상의 목표 UI 요소를 정확하게 식별하고 클릭 좌표로 연결하는 작업이 고해상도나 동적인 인터페이스에서는 쉽지 않다는 것이 문제다.

GTA1 개요 (사진=아카이브)
GTA1 개요 (사진=아카이브)

세일즈포스는 이를 해결하기 위해 GTA1에 ‘테스트-타임 스케일링(Test-time Scaling)’이라는 새로운 기법을 도입했다. 

즉, 각 단계에서 단일 행동을 선택하던 기존 방식 대신, 여러개의 후보 행동을 동시에 샘플링하고 멀티모달 판별 모델이 가장 적합한 행동을 선택하게 한다.

이를 통해 잘못된 계획이 발생하더라도 나중에 수정이 가능하도록 했으며, 이전보다 안정적인 경로 탐색이 가능해진다.

또 행동의 구체적인 실행(grounding) 측면에서도 강화 학습 기반 ‘GRPO(Group Relative Policy Optimization)’ 프레임워크를 채택했다. 따라서 GTA1은 클릭 좌표가 올바른 UI 요소에 포함될 때만 보상받는 구조로 학습됐다.

이는 기존 모델들이 클릭할 영역의 중심점을 추측하는 방식으로 부정확한 결과를 냈던 것을 보완한다. 또 사고 사슬(CoT) 방식의 추론이나 복잡한 보조 신호 없이도 정밀한 클릭을 가능하게 했다.

(a)스크린스팟-프로 벤치마크에서 실행 정확도 (b)OS월드 벤치마크에서 작업 성공률 (사진=arXiv)
(a)스크린스팟-프로 벤치마크에서 실행 정확도 (b)OS월드 벤치마크에서 작업 성공률 (사진=arXiv)

여러 벤치마크에서 기존 모델을 뛰어넘는 우수한 성능을 보였다.

OS월드(OSWorld)에서는 45.2%의 작업 성공률을 기록, 오픈AI CUA와 '클로드 3.7'을 앞섰다.

'스크린스팟-프로(ScreenSpot-Pro)'에서는 50.1%의 정밀도로 기존 최고 모델인 'U그라운드(UGround)-72B'를 크게 능가했다. '스크린스폿-V2'에서는 'GTA1-72B'가 94.8%의 정확도를 기록해 독점 모델과 견줄 만한 성과를 냈고, 'OS월드-G'에서는 67.7%로 오픈소스 모델 중 최고 기록을 세웠다.

GTA1은 7B부터 72B까지 다양한 매개변수 크기로 확장 가능하다.

특히, GTA1-7B 모델은 성능과 연산 자원 사이에서 최적의 균형을 보여주는 구성을 갖췄다고 설명했다.

또 Aria-UI, OS-Atlas 등에서 발생하는 잘못된 주석 데이터를 옴니파서(OmniParser)로 정제해 학습 품질을 높였으며, 계획 모델과 판별 모델의 재사용 구조를 통해 시스템 전체의 오버헤드도 줄였다고 밝혔다.

세일즈포스는 GTA1의 코드와 모델을 깃허브허깅페이스에 오픈소스로 공개했다. 

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지