바이트댄스가 오픈AI의 'o1' 모델과 경쟁할 수 있는 새로운 인공지능(AI) 추론 모델을 선보이며 가격을 대폭 인하했다. 또 새로운 AI 에이전트를 공개하며, 미국의 모델들을 능가한다고 밝혔다. 최근 틱톡 문제로 미국에서 퇴출 위기를 겪는 가운데, AI 분야에서는 미국을 넘기 위한 노력을 계속 하고 있다.
바이트댄스는 22일 기존 모델 ‘두바오(Daubao)’를 업그레이드한 추론 모델 ‘두바오-1.5-프로’를 출시했다.
두바오-1.5-프로의 출시는 최근 중국에서 이어지는 추론 모델 출시 트렌드를 반영한 것이다.
이에 앞서 딥시크는 지난 20일 추론 모델 ‘딥시크-R1’을 출시했으며, 지난 몇주간 문샷 AI와 미니맥스, 아이프라이텍 등 다른 중국 기업들도 비슷한 추론 모델을 공개한 바 있다.
두바오-1.5-프로 역시 여러 벤치마크에서 o1과 비슷한 성능을 보였으며, 특히 복잡한 명령어에 대한 이해 및 대응 능력을 측정하는 AIME 벤치마크에서 o1보다 뛰어난 성과를 기록했다.
특히, 높은 성능뿐만 아니라 비용이 저렴하다는 강점을 내세웠다. 바이트댄스의 클라우드 플랫폼인 볼케이노 엔진(Volcano Engine)에서 3만2000 토큰 컨텍스트 창을 지원하는 두바오-1.5-프로-32k 모델은 출력 토큰 100만개당 2위안(약 395원), 25만6000 토큰의 두바오-1.5-프로-256k 모델은 9위안(약 1779원)으로 제공된다.
또 바이트댄스는 이날 새로운 AI 에이전트인 ‘UI-TARS’를 공개했다.
이 모델은 그래픽 사용자 인터페이스(GUI)를 이해하고 추론을 적용하며, 자율적으로 단계별로 문제를 해결한다. 즉, 앤트로픽의 '컴퓨터 유즈(Computer Use)'와 비슷한 기능을 가지고 있으며, 데스크톱, 모바일, 웹 애플리케이션에서 시각적 환경을 이해하고 문제를 해결하는 데 뛰어나다.
예를 들어, “다음 달 5일에 시애틀에서 뉴욕으로 출발해 10일에 돌아오는 왕복 항공편을 찾아 가격을 오름차순으로 정렬하라”는 지시를 받으면, UI-TARS는 델타 항공 웹사이트로 이동해 출발지와 목적지 필드를 입력하고, 날짜를 클릭한 뒤 가격을 기준으로 정렬하며 각 단계마다 설명을 추가한다.
벤치마크 성능에서 UI-TARS는 오픈AI의 'GPT-4o', 앤트로픽의 '클로드 3.5 소네트', 구글의 '제미나이-1.5-프로', 알리바바의 '큐원' 시리즈와 같은 모델들을 능가하는 성과를 보였다. 특히 웹 요소 기반의 모델 능력을 측정하는 비주얼웹벤치에서는 UI-TARS 72B가 82.8%의 성과를 기록하여 GPT-4o(78.5%)와 클로드 3.5 소네트(78.2%)를 능가했다.
이 외에도 웹 컨텍스트에서 의미적 콘텐츠와 레이아웃 이해 능력을 평가하는 WebSRC에서 93.6%라는 최고 점수를 기록했으며, UI-TARS-72B는 복잡한 모바일 화면 레이아웃 및 웹 구조 이해 능력을 측정하는 스크린QA-쇼트에서 88.6%를 달성해 큐원, 제미나이, 클로드 3.5, GPT-4o를 모두 앞질렀다.
특히 앤트로픽의 컴퓨터 유즈가 주로 웹 기반 작업에서 강력한 성능을 발휘하는 반면, UI-TARS는 웹과 모바일 도메인 모두에서 뛰어난 성능을 보여줬다.
이 외에도 UI-TARS는 웹 컨텍스트와 복잡한 모바일 화면 레이아웃을 이해하는 데 있어 뛰어난 성과를 보였으며, 앤트로픽의 컴퓨터 유즈와 비교했을 때 웹과 모바일 도메인 모두에서 우수한 결과를 나타냈다.
한편 파이낸셜타임스에 따르면, 바이트댄스는 2025년 AI에 120억달러(약 17조원) 이상을 투자할 계획이다. 이 중 55억달러(약 8조원)는 중국에서 AI 칩을 구매하는 데 쓰이고, 68억달러(약 9조원)는 해외에서 고급 엔비디아 칩을 사용해 AI 모델 훈련을 강화하는 데 사용될 예정이다.
박찬 기자 cpark@aitimes.com
