대형언어모델(LLM) 전문 올거나이즈(대표 이창수)는 국내 처음으로 검색 증강 생성(RAG) 성능을 측정하는 '알리 RAG 리더보드'를 공개한다고 29일 밝혔다.
RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 정하고, 기업 AI 실무자들이 가장 적절한 솔루션을 비교 도입할 수 있도록 지원한다는 설명이다.
RAG란 생성 인공지능(AI)의 환각을 최소화할 수 있는 기술로 주목받고 있다. 사전 학습 데이터를 넘어 기업 내부 데이터 등 이미 존재하는 데이터 검색으로 답을 찾아내는 방식이다.
알리 RAG 리더보드는 금융, 공공, 의료, 법률, 커머스 등 5개 분야에 대한 한국어 RAG 성능을 평가한다.
답변 유사도 및 정확도를 판단하는 5개의 평가 도구로 RAG 성능을 평가, 신뢰도를 높이고 오차를 줄였다고 전했다. 우선 각 분야별로 2~300페이지의 문서를 업로드, 분야마다 사용자가 할 법한 질문 60개를 생성했다.
질문별로 RAG가 답변을 생성하면, 바로 오류를 측정한다. 5개 평가 도구 중 3개 이상에서 오류가 없을 경우 '이상 없음'으로 판명한다. 해외 RAG 리더보드의 경우 일반적으로 1~2개의 평가 도구만 활용한다고 덧붙였다.
특히 현재 공개된 RAG 리더보드 중 유일하게 RAG 3개 구성요소를 모두 평가한다.
RAG는 문서에서 글자나 그림, 표 등을 추출하고 읽기 쉬운 포맷으로 변경해주는 '파서(Parser)', 기업이 보유한 데이터 중 사용자가 원하는 대답을 찾아주는 '리트리버(Retrieval)', 새로운 지식과 학습 데이터를 토대로 LLM이 응답을 생성해내는 '답변생성(Generation)' 등 3개 요소를 포함한다.
기업이 RAG을 도입할 경우 어떤 RAG가 적합한지 성능평가를 제대로 하기 어렵다는 점을 고려, 테스트 데이터셋도 모두 공개했다. 실제 업무 문서에 표, 이미지 등이 복잡하게 얽혀 있다는 점을 감안해 표와 이미지 데이터도 데이터셋에 포함시켰다.
리더보드는 허깅페이스를 통해 확인할 수 있다. 리더보드에 들어간 RAG 솔루션들도 링크로 공개, 누구나 체험해 볼 수 있다.
이창수 올거나이즈 대표는 "AI 생태계에 기여하기 위해 테스트 데이터셋을 모두 공개했으며, 이를 활용해 한국어로 된 다양한 RAG 솔루션의 성능이 향상하길 바란다"라고 말했다.
또 "대학 및 개인 연구자들은 AI 연구에 도움을 받을 수 있을 것이고, 기업들 역시 성능 좋은 RAG를 도입해 업무 생산성 증대를 경험할 수 있을 것"이라고 덧붙였다.
장세민 기자 semim99@aitimes.com
