(사진=X, Hao AI Lab)
(사진=X, Hao AI Lab)

인공지능(AI) 에이전트의 문제 해결 능력을 파악하는 수단으로 게임이 떠오르고 있다. 포켓몬에 이어 이번에는 슈퍼 마리오가 벤치마크 도구로 등장했다.

캘리포니아 샌디에이고대학교 연구 기관인 하오 AI 랩(Hao AI Lab)은 지난 1일(현지시간) '슈퍼 마리오 브라더스' 게임에 AI 모델 4개를 투입했다고 밝혔다. 

그 결과 앤트로픽의 '클로드 3.7 소네트'가 가장 좋은 성과를 보였다. 연구진은 "클로드 3.7은 간단한 휴리스틱을 가진 다른 모델보다 성능이 우수하다는 것을 발견했다"라고 설명했다.

이어 "클로드 3.5도 강력하지만, 복잡한 움직임을 계획하는 데에는 덜 유능하다. '제미나이 1.5 프로'와 'GPT-4o'는 성능이 떨어진다"라고 덧붙였다.

연구진은 이번 실험을 위해 1985년 출시된 슈퍼 마리오 게임을 '게이밍에이전트(GamingAgent)'와 통합, 에뮬레이터에서 게임을 제어할 수 있도록 세팅했다.

이어 AI에 스크린샷을 제공하고 '장애물이나 적이 가까이 있으면 왼쪽으로 이동/점프해 회피' 등의 게임 규칙을 입력했다. AI는 이를 바탕으로 마리오 캐릭터를 제어하기 위해 파이썬 코드 형태로 입력을 생성했다.

특이한 것은 이번 평가에서 공개하지 않았으나, 오픈AI의 'o1'과 같은 추론 모델이 비추론 모델보다 성과가 나빴다는 것이다. 이는 일반적으로 추론이 문제 해결에 도움이 된다는 상식과는 맞지 않는 것이다. 

이에 대해서 연구진은 추론 모델이 캐릭터 행동을 결정하기 위해 지나치게 많이 '생각'해 시간 지연이 생겼기 때문이라고 설명했다. 슈퍼 마리오와 같은 게임은 타이밍이 매우 중요한 게임이기 때문이다.

앞서 앤트로픽은 지난주 클로드 3.7 소네트를 출시하며 에이전트 능력을 테스트하기 위해 '포켓몬 레드'라는 게임을 활용했다. 이 게임은 슈퍼 마리오와 같이 타이밍이 중요한 것이 아니라, 시나리오에서 전략을 수립하는 것이 핵심이기 때문에 당연히 추론 모델의 능력이 더 뛰어나다.

한편, 게임은 이미 오래전부터 AI를 벤치마킹하는 데 사용됐다. 하지만, 게임은 현실 세계와 달리 추상적이고 단순하기 때문에 이를 실제 업무 처리 능력으로 보기는 어렵다.

그러나 모델 성능이 급속도로 향상되며, 벤치마크에 대한 한계가 다시 부각되기 때문에 게임이 벤치마크로 다시 등장한다는 지적이다.

오픈AI의 공동 창립자 중 한명인 안드레이 카르파티도 이런 '평가 위기'를 지적했다. 그는 최근 X(트위터)를 통해 "벤치마크만 봐서는 모델이 얼마나 좋은지 파악하기 어렵다"라고 밝혔다.

임대준 기자 ydj@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지