컴퓨터 유즈 테스트 개요 (사진=arXiv) 
컴퓨터 유즈 테스트 개요 (사진=arXiv) 

앤트로픽의 인공지능(AI) 에이전트 '컴퓨터 유즈(Computer Use)'를 실제 사용하고 장단점을 열거한 연구가 등장했다. 아직은 기업의 업무 자동화를 위해 투입할 준비가 되지 않았다는 결론이다.

벤처비트는 20일(현지시간) 싱가포르 국립대학교의 연구실이 컴퓨터 유즈를 다양한 분야에 적용한 연구 결과 논문을 발표했다고 보도했다.

'클로드'에 적용된 에이전트 기능은 인간이 사용하는 것과 동일한 인터페이스를 통해 마우스와 키보드를 움직여 컴퓨터를 작동할 수 있는 최초의 프론티어 모델이다. 사용자는 처음에 간단한 지침만 전달하면, AI가 나머지 작업을 알아서 대신하는 방식이다.

연구원들은 웹 검색과 서류 작업, 비디오 게임 등 다양한 작업에서 테스트를 진행했다.

웹 검색에는 구매나 뉴스 서비스 구독과 같은 상호 작용이 포함됐으며, 서류 작업에는 웹사이트에서 정보를 추출해 스프레드시트를 완성하는 다중 작업이 포함됐다. 문서 서식 지정, 이메일 보내기, 프레젠테이션 만들기와 같은 작업도 지시했다. 비디오 게임은 게임의 논리를 이해하고 작업을 계획해야 하는 다단계 작업을 수행 능력을 평가하기 위한 것이다.

각 작업은 계획과 행동, 비판 등 세가지 측면에서 모델의 능력을 테스트했다. 

먼저 모델은 작업을 완료하기 위한 일관된 계획을 내놓아야 한다. 그다음 브라우저를 열고, 항목을 클릭하고, 텍스트를 입력하는 등 계획에 맞춰 행동해야 한다. 

비판은 모델이 진행 상황과 성공을 판단할 수 있는지를 알아보는 것이다. 오류가 발생하면 모델은 이를 이해하고 수정할 수 있어야 한다.

실험 결과, 일반적으로 클로드는 복잡한 작업을 수행하는 데 훌륭한 성과를 보였다고 밝혔다. 작업을 수행하는 데 필요한 여러 단계를 추론하고 계획하고, 작업을 수행하고, 모든 단계에서 진행 상황을 평가할 수 있었다는 말이다.

또 웹 페이지에서 정보를 복사해 스프레드시트에 붙여 넣는 것과 같이 다양한 애플리케이션을 사용할 수 있었다. 또 작업을 마친 뒤 결과를 확인, 목표와 일치하는지 확인하는 경우도 있었다. 모델은 다양한 도구와 애플리케이션이 작동하는 방식을 전반적으로 이해하고 효과적으로 조정할 수 있음을 보여줬다는 설명이다.

그러나 인간이라면 쉽게 파할 수 있는 사소한 실수가 자주 일어난 것으로 알려졌다. 예를 들어, 구독 버튼을 누르기 위해 웹 페이지를 아래로 스크롤 해야 하는데, 단지 화면에 구독 버튼이 보이지 않는다는 이유로 작업을 중단했다.

구독 버튼 찾기에 실패한 경우 (사진=arXiv)
구독 버튼 찾기에 실패한 경우 (사진=arXiv)

또 텍스트를 선택하고 바꾸거나 요점을 숫자로 변경하는 것과 같은 매우 간단한 작업에 실패했다. 게다가 오류를 깨닫지 못하거나 목표를 달성하지 못한 이유에 대해 잘못된 가정을 내놓기도 했다.

연구자들은 "모델의 자체 평가 메커니즘의 부족으로 잘못된 판단이 일어났다"라며 "내재된 엄격한 비평가 모듈에 대한 개선이 필요할 수 있다"라고 지적했다. 

또 에이전트가 인간이 컴퓨터를 사용하는 방법을 실제로 이해하는 것도 아니라고 밝혔다. 보안 문제도 거론했다.

따라서 현재로서는 이 기술을 대량 배포될 준비가 되지는 않았다는 결론이다. 

에이전트는 불안정하고 예측할 수 없는 결과를 초래할 수 있으며, 이는 민감한 애플리케이션에서 해로운 결과를 초래할 수 있다고 전했다. 특히 인간을 위해 설계된 인터페이스를 통해 작업을 수행하는 것도 효율적인 방법이 아니라고 분석했다.

연구진은 이번 분석이 "클로드 3.5 컴퓨터 유즈의 기능과 한계를 보여주고 향후 개선을 위해 고려해야 할 사항을 파악하는 것을 목표로 한다"라고 강조했다. 이를 통해 에이전트 개발에 도움이 되길 바란다는 말이다.

임대준 기자 ydj@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지