'제2의 딥시크'로 주목받는 마누스 AI가 시장의 기대와 의구심을 동시에 불러일으키고 있다. 중국에서는 뜨거운 관심을 받고 있지만, 해외에서는 기대에 못 미친다는 평가가 속속 등장하고 있다.
테크크런치는 9일(현지시간) 마누스가 소셜 미디어에서 폭발적인 반응을 얻고 있지만, 실제 테스트에서는 부정적인 평가가 이어지고 있다고 보도했다.
지난주 마누스는 오픈AI의 '딥 리서치'를 능가하는 인공지능(AI) 에이전트를 개발했다고 주장하며, 맞춤형 웹사이트 제작과 여행 계획 수립, 심층 분석 등을 수행하는 데모 영상을 공개했다. 특히 AI 어시스턴트 성능을 평가하는 'GAIA' 벤치마크에서 오픈AI의 딥 리서치를 앞섰다고 주장하면서 '제2의 딥시크'가 등장했다는 기대감을 불러일으켰다.
또 에이전트 테스트용 초대 코드를 배포하면서 희소성을 부각했고, 이에 따라 일부 업체들이 초대 코드를 판매하거나 계정을 임대하는 사례까지 발생했다.
그러나 실제 테스트를 진행한 사용자들 사이에서는 기대에 못 미친다는 반응이 나오고 있다.
AI 스타트업 플레이아스의 공동 창립자인 알렉산더 도리아는 X(트위터)를 통해 마누스가 기존 AI 모델과 미세조정된 모델을 조합해 사용하고 있다며, 특히 앤트로픽의 '클로드 3.7 소네트'와 알리바바의 '큐원'을 활용한 것으로 보인다고 분석했다.
또 마누스를 테스트하는 과정에서 오류 메시지와 무한 루프가 발생했다고 전했다.
다른 테스터들도 X에서 사실 확인이 필요한 질문에서 오류를 범하고, 출처가 일관적이지 않으며, 쉽게 찾을 수 있는 온라인 정보조차 누락하는 경우가 많다고 지적했다.
패스트푸드점 주문, 항공편 및 식당 예약, 격투 게임 개발 등 일반적인 AI 에이전트 기능을 테스트한 결과, 여러 작업에서 실패했다는 증언도 이어졌다.
반면, 중국 매체들은 "국산 기술의 자부심"으로 내세우며 홍보하고 있으며, 소셜 미디어의 AI 인플루언서들도 역량을 부풀린 정보를 퍼뜨리고 있다.
한 영상에서는 마누스로 보이는 데스크톱 프로그램이 여러 스마트폰 앱을 동시에 조작하는 장면이 등장했으나, 이는 실제 마누스의 데모가 아닌 것으로 확인됐다.
일부 X 사용자들은 딥시크와 비교하며 과장된 주장을 펼치고 있지만, 딥시크와 달리 자체 AI 모델을 개발하지 않았으며 아직까지 기술을 개방하지 않고 있다.
이에 대해 마누스 AI는 "우리의 초점은 마누스를 지속적으로 개선하고 실제로 사용자가 문제를 해결하는 데 도움이 되는 AI 에이전트를 만드는 것"이라며 "현재 클로즈드 베타의 주요 목표는 스트레스 테스트를 실시하고 문제를 식별하는 것이며, 모든 참가자들에게 감사 드린다"라고 밝혔다.
박찬 기자 cpark@aitimes.com
