라이너 검색 LLM 성능 평가 결과 (사진=라이너)
라이너 검색 LLM 성능 평가 결과 (사진=라이너)

인공지능(AI) 검색 전문 라이너(대표 김진우)는 자체 개발한 검색 특화 대형언어모델(LLM)을 최근 고도화했다고 3일 밝혔다. 이를 오픈AI 'GPT-4.1'와 비교한 결과, 검색 성능이 더 앞섰다고 전했다. 

라이너는 2023년 서비스 정식 오픈부터 다양한 오픈 소스 모델을 기반으로 최적화 및 추가 학습을 진행, 검색에 특화한 '라이너 LLM'을 개발해 왔다. 이는 라이너 서비스에 탑재됐으며, 주기적으로 업데이트가 진행됐다.

이번에는 최신 업데이트 버전의 '검색 최적화 라이너 LLM'에는 2013년부터 검색 서비스를 진행해 온 노하우를 투입했다는 설명이다. 

그리고 성능을 파악하기 위해 GPT API에서 최신 모델인 GPT-4.1과 벤치마크 테스트를 실행했다.

그 결과, AI 검색 답변 생성 능력을 평가하는 '핵심 컴포넌트 평가'에서 라이너 검색 LLM은 GPT-4.1보다 우수한 결과를 기록했다고 전했다. 이는 라이너가 자체 개발한 벤치마크 방식이다.

검색 답변 생성 능력을 평가하는 핵심 컴포넌트 평가는 기존에 알려진 LLM 벤치마크와는 성격이 다르다.

예를 들어 “1+1은 뭐야”라는 질문은 검색이 필요 없다. 이 때는 검색 대신 즉시 답하는 것이 올바른 방법이다.

또 외부 도구 실행이 필요한 작업에서는 쿼리에 포함된 임무를 얼마나 잘 파악하는지가 좋은 결과로 이어진다. 이처럼 문장 생성 능력에 초점을 맞추는 것이 아닌, '효율화된 검색' 능력에 초점을 맞춘 벤치마크다.

구체적으로 ▲카테고리 분류 ▲과제 분류 ▲외부 도구 실행 ▲중간 답변 생성 ▲질문 분해 여부 판단 ▲필요 문서 식별 ▲출처 포함 중간 답변 생성 ▲할 일 관리 등 8개 컴포넌트로 구성된다.

특히, 앞의 4개에 해당하는 핵심 항목에서는 성능-속도-비용 모든 측면에서 GPT 4.1을 능가하는 결과가 나왔다. 나머지 4개에서도 두가지 이상의 항목에서 경쟁 우위를 기록했다.

라이너 관계자는 "검색 특화 LLM은 오픈 소스 모델에 라이너가 10여년간 축적해 온 관련 데이터를 학습한 결과"라며 "성능, 비용, 검색 속도를 최적화한 검색 LLM"이라고 소개했다. 

토큰당 처리 비용은 GPT-4.1 대비 평균 30~50% 낮게 나타나, 대규모 트래픽 환경에서도 경쟁력을 갖추게 됐다고 덧붙였다.

조현석 라이너 테크 리드는 “라이너 검색 LLM은 8가지 모든 컴포넌트에서 GPT를 뛰어넘는 성능을 입증했다”라며 “어떤 데이터를 어떻게 학습하고, 어떤 구조로 질문을 처리하느냐가 AI 환각을 줄이는 핵심”이라고 말했다.

이어 “데이터 학습과 연구 개발에 꾸준히 집중해 온 노력이 차별화된 AI 에이전트 기술 경쟁력으로 이어졌다고 생각한다"라고강조했다.

장세민 기자 semim99@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지