(사진=셔터스톡)
(사진=셔터스톡)

중국 텐센트가 추론 효율성과 고성능을 동시에 갖춘 새로운 오픈 소스 대형언어모델(LLM)을 선보였다.

텐센트는 28일(현지시간) 갓허브를 통해 LLM ‘훈위안-A13B(Hunyuan-A13B)’를 공개했다.

이 모델은 희소 전문가 혼합(SMoE) 구조를 채택, 총 800억개의 매개변수 중 추론 시에는 130억개만 활성화한다. 이를 통해 성능과 계산 효율을 동시에 확보했다.

SMoE는 LLM을 생물, 물리, 수학 등 각 분야를 담당하는 작은 전문 모델(Expert)로 쪼개고, 질문에 따라 전문 모델을 연결하거나 몇종류를 섞는 방식이다. 이 경우 관련 없는 전문 모델은 빼고 관련 있는 모델만 구동하기 때문에 비용과 시간이 훨씬 적게 들어간다.

훈위안-A13B는 1개의 공유 전문가와 64개의 비공유 전문가로 구성되며, 추론 시 8개의 전문가가 활성화된다.

25만6000 토큰의 컨텍스트 창을 지원하고, 어텐션 메커니즘에서 하드웨어 사용을 줄인 그룹 쿼리 어텐션(GQA)을 활용해 추론 속도를 높였다.

또 빠른 사고와 느린 사고를 전환하는 '듀얼 모드 추론(reasoning)'을 지원한 게 특징이다.

이를 통해 간단한 요청에는 빠르게 처리하고, 복잡한 다단계 추론에는 느리지만 정교하게 대응할 수 있는 체계를 갖췄다. 특히 ‘/think’ 또는 ‘/no think’와 같은 태그를 통해 유연하게 모드를 전환할 수 있어, 사용자는 작업 복잡도에 맞춰 연산 자원을 조절할 수 있다.

벤치마크 결과 (사진=텐센트)
벤치마크 결과 (사진=텐센트)

다양한 에이전트 벤치마크에서 탁월한 성능을 보였다. 'BFCL-v3'와 '컴플렉스펑크벤치(ComplexFuncBench)'에서 각각 78.3점과 61.2점을 기록하며 선두를 기록했고, 도구 기반 작업에 특화된 구조로 스프레드시트 처리, 정보 검색, 구조적 추론 등 실제 워크플로우도 원활히 수행한다.

코딩 벤치마크에서도 'MBPP' 83.9점과 'MultiPL-E' 69.3점으로 상위권을 기록했다. 수학 및 논리 분야에서도 'MATH', 'GPQA', 'BBH', 'ZebraLogic' 등에서 '큐원3-A22B'나 '딥시크-R1' 등 대형 모델을 능가했다.

긴 문맥 이해에서는 '펭귄스크롤(PenguinScrolls)', '룰러(RULER)' 등에서 '제미나이 2.5 프로'에 근접하거나, 큐원3-A22B, 딥시크-R1을 능가하는 성능을 보였다.

훈위안-A13B는 vLLM, SGLang, TensorRT-LLM과 같은 프레임워크와 호환되며, W16A16, W8A8, FP8 등의 정밀도 형식을 지원한다. 최대 초당 1981.99 토큰의 처리 속도를 기록하며, 실시간 응용에도 적합하다.

또 자동 프리픽스 캐싱(Auto Prefix Caching), 청크 프리필(Chunk Prefill) 기능 등을 갖춰 장문 입력 처리에도 효율적이다.

텐센트는 "이 모델은 강력한 에이전트 기능을 보여주며 LLM의 프로그래밍 역량을 강화한다"라며 "특히 뛰어난 추론 처리량으로 지연 시간에 민감한 애플리케이션에 적합하다"라고 소개했다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지