(사진=링크)
(사진=링크)

미국 생성 인공지능(AI) 전문 링크(구 워커버)는 임베딩 모델 '링크'가 허깅페이스 ‘대형 텍스트 임베딩 벤치마크 리더보드(MTEB)’ 텍스트 검색 평가에서 60.19점으로 1위를 차지했다고 5일 밝혔다. 

허깅페이스 MTEB는 임베딩 모델 성능을 ▲분류 (Classification) ▲클러스터링 (Clustering) ▲쌍분류 (PairClassification) ▲재순위 (Reranking) ▲검색 (Retrieval) ▲텍스트 의미적 유사도(STS) ▲요약(Summarization) 등 7개 분야로 나눠 평가한다.

링크의 임베딩 모델은 이중 텍스트 '검색' 분야에서 1위, 종합 3위를 차지했다. 엔비디아의 임베딩 모델 'NV-Embed-v1'가 5일 현재 MTEB 종합 1위다. 

임베딩 모델은 대형언어모델(LLM)의 환각 문제를 줄일 수 있는 검색 증강 생성(RAG) 기술에 쓰이는 모델이다. 기업에서 LLM을 도입할 때 사내 데이터로 임베딩 모델을 만들어 답변의 정확도를 높일 수 있다. 

이 프로젝트를 리드한 김준성 박사는 “우리는 사람이 라벨링한 데이터와 비슷한 품질의 데이터를 LLM 을 통해서 효율적으로 만들었고, 이를 통해 MTEB 벤치마크 데이터셋에 대해 최고의 검색 성능을 달성할 수 있었다”라며 “효율적인 RAG을 위한 임베딩 모델을 빠르고 비용효율적으로 만드는 방법을 고안하게 돼 기쁘다”라고 전했다.

최찬열 링크 대표는 “금융이나 법률과 같이 텍스트 검색의 정확도가 매우 중요한 분야에서 검색 정확도를 보장해주는 엔진인 임베딩 모델을 전문 분야를 중심으로 확장하고 고도화해 나갈 것”이라고 말했다. 

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지