여러 대형언어모델(LLM)을 동시에 활용하는 기업 환경에서, 사용자 쿼리를 가장 적합한 모델에 자동 연결해 주는 새로운 라우팅 시스템이 등장했다.
인공지능(AI) 인프라 스타트업 카타네모 랩스(Katanemo Labs)는 최근 인간의 주관적 선호도를 반영해 LLM을 선택하는 ‘아치 라우터(Arch-Router)’에 관한 논문을 아카이브에 게재했다.
기존의 모델 벤치마크 점수에 맞춘 방식이나 고정된 규칙에 의존하던 라우팅 방식에서 벗어나, 유연하고 직관적인 방식으로 모델 선택이 가능하다는 설명이다.
아치 라우터는 15억개 매개변수를 가진 소형 LLM이다. 사용자 입력을 분석해 미리 정해진 작업 분류표와 비교한 뒤 가장 잘 맞는 작업 방식을 선택하고, 이를 그 작업에 가장 적합한 AI 모델로 연결한다.
예를 들어, 사용자가 “금융 관련 글을 요약해 줘”라고 입력하면, 아치 라우터는 이를 '금융 요약' 작업으로 해석하고, 그에 맞는 AI 모델을 골라 요청을 보낸다.
이 프레임워크의 핵심은 ‘모델’과 ‘정책’을 분리했다는 점이다.
덕분에 새로운 AI 모델을 추가하거나 기존 모델을 바꾸더라도, 라우터 전체를 다시 훈련하거나 구조를 바꿀 필요 없이 정책만 바꾸면 된다. 이렇게 유연하게 구성된 시스템은 다양한 AI 모델과 활용 방식이 빠르게 바뀌는 현실에서 매우 실용적이라는 설명이다.
기존의 라우팅 방식은 ▲미리 정해진 작업에 따라 모델을 선택하는 방식 ▲성능이나 비용 효율을 기준으로 선택하는 방식 등으로 구분된다.
하지만, 이런 작업 기반 라우팅은 사용자의 의도가 명확하지 않거나 대화가 여러 차례 이어질 경우 적절한 모델 선택이 어렵다. 또 성능 기반 라우팅은 벤치마크 점수를 기준으로 삼기 때문에, 실제 사용자 경험이나 선호는 반영하지 못한다는 문제가 있었다는 지적이다.
카타네모 랩스는 “기존 방식은 실제 사용자 선호도를 무시하고, 투명성이나 확장성 측면에서도 한계가 있다”라며 “아치 라우터는 이런 한계를 극복하기 위한 새로운 해법”이라고 강조했다.
카타네모 랩스는 자체 구축한 4만3000개 데이터셋을 활용해 아치 라우터를 훈련하고, 오픈AI, 앤트로픽, 구글의 최신 모델과 비교 평가했다.
그 결과, 공개된 4개 대화형 데이터셋 기준으로 93.17%의 라우팅 정확도를 기록하며 모든 경쟁 모델을 평균 7.71%p 상회했다. 대화가 길어질수록 정확도는 더 높아졌다.
대화를 문맥 전체로 이해하는 생성 기반 추론 방식을 사용하기 때문에, 단순히 키워드를 분류하는 기존 모델보다 사용자의 요청과 라우팅 정책을 더 정밀하게 연결할 수 있다.
이 시스템은 예를 들어 사용자의 요청을 분석한 뒤, ‘문서-생성(document_creation)’이나 ‘이미지_편집(image_editing)’처럼 짧고 명확한 식별자(identifier)를 반환한다. 덕분에 처리 속도도 빠르고 효율적이다.
아치 라우터는 이미 다양한 시나리오에서 활용되고 있다. 오픈 소스 코딩 도구에서는 ‘코드 디자인’ ‘코드 이해’ ‘코드 생성’ 등 단계별로 적합한 LLM을 자동으로 선택해 쿼리를 분배한다. 기업도 문서 생성 요청은 '클로드 3.7 소네트'에, 이미지 편집 작업은 구글의 '제미나이 2.5 프로'에 자동 연결하는 등, 작업 유형에 따라 모델을 유연하게 라우팅하는 방식으로 운영되고 있다.
카타네모 랩스는 아치 라우터를 AI 프록시 서버 ‘아치(Arch)’와 연동해 제공한다.
이를 통해 개발자는 복잡한 트래픽 분산 규칙도 쉽게 설정할 수 있으며, 새로운 모델을 도입할 때도 일부 트래픽만 먼저 보내 성능을 점검하고 점진적으로 전환할 수 있는 기능을 지원한다. 이처럼 아치와의 연동은 운영 안정성을 유지하면서 유연하게 모델을 실험하고 교체할 수 있는 실용적인 환경을 제공한다는 설명이다.
살만 파라차 카타네모랩스 CEO는 “아치 라우터와 아치는 분절된 LLM 사용 환경을 정책 중심으로 통합할 수 있는 기반을 마련해준다”라며 “텍스트 요약부터 이미지 편집까지 다양한 작업을 하나의 인터페이스에서 처리할 수 있도록 해, 사용자 경험을 더욱 매끄럽고 일관되게 만들 수 있다”라고 강조했다.
아치 라우터는 허깅페이스에서 사용할 수 있다.
박찬 기자 cpark@aitimes.com
