올거나이즈가 대형언어모델(LLM)의 금융 전문 지식을 테스트하고 비교하는 리더보드를 내놓았다. 특정 산업 분야를 타깃으로 한 전문 리더보드의 등장은 처음이며, 이를 바탕으로 제조업과 공공 분야 등으로 리더보드 범위를 넓히겠다고 밝혔다.
LLM 전문 올거나이즈(대표 이창수)는 금융 전문 LLM 리더보드 및 테스트 데이터셋을 공개, 기업용 인공지능(AI) 생태계에 이바지하겠다고 20일 밝혔다.
올거나이즈의 금융 전문 LLM 리더보드는 금융 용어와 약어를 이해하고, 복잡한 추론에 특화한 한국어 LLM의 성능을 평가한다.
일반적인 LLM은 범용적인 활용도로 측정하는 데 적합하지만, 금융에 필요한 수식 계산과 예외 조건 등을 포함한 복잡한 추론에는 취약하다는 설명이다. 금융 문서 내부의 수치 및 표, 차트를 이해하기도 어렵다고 지적했다.
실제 일반 MMLU(대규모 다중작업 언어 이해)와 같은 벤치마크는 인문, 사회과학, 자연과학, 수학 문제 등 57개 항목을 포함하고 있지만, 금융의 예외 조항 및 추론 능력까지 평가하지는 못한다. 현재 금융 관련 성능을 테스트하는 리더보드도 없다.
특히 금융 분야는 보안 문제로 인해 온프레미스를 선호하는 데다, 정확도가 다른 분야보다 더 중요하기 때문에 모델 성능 평가가 중요하다고 강조했다. 이 때문에 금융 문서와 업무 스타일에 적합한 전문 LLM을 실무자들이 비교해 볼 수 있도록 전용 리더보드를 제작했다는 설명이다. 지난 1월 기획, 약 3개월 만에 완성했다.
올거나이즈는 국내는 물론 미국과 일본 등에서 200개 이상의 엔터프라이즈 기업에 LLM 솔루션을 제공해 왔다. KB증권, 일본의 미쓰이스미토모은행(SMBC) 금융그룹 등 글로벌 거대 금융 기업을 파트너로 금융 분야 지식관리 노하우를 쌓아왔다.
현재 금융 전문 리더보드에서는 'GPT-4' '클로드3' '젬마' 등 범용 LLM과 금융 특화 LLM 등 13개 모델이 경쟁하고 있다. 이 중 3개는 올거나이즈가 금융 전문 데이터로 미세조정한 자체 모델이다.
인간 사용자의 '선호도 테스트'도 추가했다. 사용자는 '금융 LLM 아레나'에서 금융 관련 질문에 대한 블라인드 테스트 방식으로 LLM의 답변을 직접 비교하고 선호하는 쪽에 점수를 줄 수 있다.
랜덤으로 선별한 익명의 LLM 두개가 같은 질문에 나란히 답변을 생성, 더 나은 답변을 고르는 방식이다. 선호도를 실시간으로 반영, 모델간 순위도 바로 확인할 수 있다.
이 방식은 해외에서 인기를 얻은 ‘챗봇 아레나’에서 아이디어를 얻은 것으로, 사전에 만들어 놓은 검색 증강 생성(RAG) 관련 질문 중 하나를 사용자가 골라서 입력해 답변을 평가하는 방식이다.
자체 제작한 테스트 데이터셋도 공개했다. ▲한국은행과 기재부 등 공공기관의 경제 연구 보고서, 금융 보고서, 금융 용어집 등을 바탕으로 제작한 RAG 데이터 ▲금융 문서에 자주 등장하는 수식과 복잡한 표, 차트에 특화된 데이터 등이 포함됐다.
기존 한국어 오픈 소스 데이터 외에도 영어로 된 금융 관련 데이터셋을 번역해 추가했고, 복잡한 금융 관련 수식과 표를 담은 데이터도 자체 생성했다.
한편 올거나이즈는 최근 금융 특화 AI 언어모델인 알리 파이낸스 LLM의 정식 명칭을 ‘알파-F(Alpha-Finance)’로 변경한 바 있다. 알파-F는 금융 산업에 특화한 100만건의 데이터를 학습, 복잡한 금융 용어 및 약어를 이해한다는 강점이 있다. RAG 데이터도 20만건을 포함했다. 기반 모델은 EEVE, 오픈솔라KO(OpenSolarKO), V1 등이다.
이를 바탕으로 앞으로 ▲제조업 특화 모델인 ‘알파-M(Manufacture)’ ▲공공기관 전문 모델 ‘알파-G(Government)’ 등의 산업 특화 LLM을 순차 출시할 예정이다.
금융 업무 자동화에 특화한 ‘금융 LLM 앱마켓'도 선보였다. AI 인지검색 솔루션을 적용한 LLM 앱을 활용하면, 어려운 금융 정보를 빠르게 파악할 수 있다고 소개했다. 금융 기업의 문서와 매뉴얼, 최신 정보 등을 기반으로 은행 분쟁사례 검색 등 사용자 질문에 답하는 기업용 LLM 앱을 생성할 수 있다는 설명이다.
앞으로는 금융을 넘어 산업 특화 LLM의 영역을 하나씩 넓혀나가는 것은 물론 그때마다 리더보드를 관련 분야에 맞춰 확장할 계획도 있다고 전했다.
이창수 올거나이즈 대표는 "국내 금융사들과 프로젝트를 진행할 경우, 많은 요청을 받은 것은 LLM의 성능 평가 비교였다”라며 “성능 평가를 위해서는 금융에 특화된 테스트 데이터가 있어야 하는데, 기업이 일일이 만들기에는 시간과 비용이 많이 드는 문제가 있어 이를 해결하게 됐다”라고 밝혔다.
이어 “올거나이즈의 노하우를 담은 데이터를 모두 공개해 기업들이 효율적으로 경쟁력 있는 LLM을 도입할 수 있도록 돕겠다”라고 말했다.
한편 금융 전문 리더보드는 웹사이트에 접속해 바로 만나볼 수 있다.
장세민 기자 semim99@aitimes.com
- 올거나이즈, 한국MS와 '금융권 AI 핵심 전략' 세미나 다음달 4일 개최
- 올거나이즈-마키나락스, '금융권 LLM 인프라 최적화 전략' 세미나 개최
- 올거나이즈, 미국 공인회계사협회·건강보험 보안 인증 획득
- 올거나이즈, 알리 LLM 플랫폼 로그인 보안 강화
- KAIST·LG AI연구원, 강력한 LLM 벤치마크 도구 '프로메테우스 2' 공개
- LLM '안전 리더보드' 등장..."GPT-4 이어 라마 2가 3위"
- 올거나이즈, RAG 성능 평가하는 리더보드 공개..."기업의 RAG 도입에 도움"
- 올거나이즈, 한국어 실무 특화 LLM 오픈 소스 출시..."고품질 데이터로 성능 향상"
