(사진=업스테이지)
(사진=업스테이지)

업스테이지가 이번에는 동급 최강의 '수학 특화 언어모델'을 개발했다고 밝혔다. 마이크로소프트(MS)의 모델은 물론 오픈AI의 'GPT-4'까지 일부 성능을 뛰어넘었다는 설명이다. 

업스테이지(대표 김성훈)는 인공지능(AI) 기반 학습 플랫폼 ‘콴다’를 운영하는 매스프레소(대표 이용재), KT 등과 협력, 수학 도메인 특화 프라이빗 대형언어모델(LLM) ‘매쓰GPT(MathGPT)’를 개발했다고 8일 밝혔다.

양사는 지난해 11월 KT와 전략적 파트너십의 일환으로 매쓰GPT 개발을 시작했다. 업스테이지가 콴다의 고품질 수학 전문 데이터를 학습, 자연어 기반 언어 모델이 논리적 추론과 프로그래밍화를 거쳐 복잡한 수학 문제를 풀 수 있도록 미세조정을 진행했다.

그 결과 매개변수 130억개(13B)의 매쓰GPT를 개발, ‘MATH’ ‘GSM8K’ 등 언어 모델의 수학 능력을 평가하는 대표 벤치마크 테스트에서 MS의 ‘토라(ToRA) 13B’ 모델을 능가했다고 밝혔다. 이는 13B 이하 모델 1위에 해당하는 신기록이라는 설명이다.

MATH와 GSM8K는 수학 관련 벤치마크 테스트의 대표 척도다. MATH는 1만2500개의 고난도 수학 경시 문제로 구성, 풀이 과정의 창의적이고 복잡한 접근성을 중심으로 고급 개념의 이해와 추상적인 사고를 높이 평가한다.

GSM8K은 8500개의 초등학교 수준 산술 연산으로 구성, 풀이의 정확도와 단순성을 중점적으로 평가한다. 특히 기본적인 수학적 개념의 이해와 올바른 계산 방법을 중시한다.

물론 수학 전문 모델 전체를 대상으로 벤치마크를 실시한 것은 아니며, 일부 모델은 벤치마크 결과를 일부 확인할 수 없는 상황이다. 현존 수학 최강으로 알려진 구글의 '미네르바(62B, 540B)'는 알려진 자료가 없어 비교가 불가능하다고 밝혔다. 따라서 업스테이지는 이제까지 벤치마크 결과가 모두 공개된 토라 13B와 챗GPT, GPT-4를 비교 대상으로 했다. 

구체적으로 MATH 테스트에서 ▲매쓰GPT 0.488 ▲토라 13B 0.481 ▲GPT-4 0.425 ▲챗GPT 0.355의 정확도로 1위를 차지했다. 범용 모델이긴 하지만, 매개변수가 훨씬 큰 GPT-4와 챗GPT까지 수학 능력에서 앞섰다는 의미다. 

또 GSM8K 테스트에서는 ▲챗GPT 0.808 ▲매쓰GPT 0.782 ▲토라 13B 0.758 순이었다. GPT-4는 공개된 수치가 없다.  

특히 모델 크기가 유사한 토라 13B와의 비교가 가장 객관적으로 볼 수 있다고 설명했다. 업스테이지 측은 "MS에서 발표한 논문에 해당 수치가 나와 있어서 비교하기 수월했다"라며 "토라는 13B 동급 최강(SoTA, state-of-the-art)으로 알려진 모델"이라고 설명했다. 

업스테이지 측은 "이처럼 수학 관련 벤치마크 테스트 두분야에서 동급 모델 최고 성능을 달성한 것은 최근 세계적으로도 비슷한 예가 없는 대단한 성과"라고 강조했다. 

또 "KT의 전폭적인 인프라 지원, 콴다의 독보적인 수학 특화 노하우와 고품질의 학습 데이터, 그리고 자체 모델 ‘솔라(SOLAR)’로 세계 1위의 LLM을 만든 업스테이지의 모델링 기술력을 합친 결과물"이라고 밝혔다. 

교육 영역에서 이처럼 가시적인 성과를 입증한 업스테이지는 앞으로 솔라를 앞세워 금융, 유통, 의료, 엔터테인먼트 등 산업군으로 확장하는 것은 물론 본격적인 해외 진출을 시도한다.

김성훈 업스테이지 대표는 “수학 특화 언어 모델을 개발하게 돼서 뜻깊다”라며 “앞으로 업스테이지는 글로벌 1위 LLM 기술력을 바탕으로 다양한 영역에서 생성 AI 혁신을 주도해 나갈 것”이라고 말했다.

콴다 이용재 대표는 "모델의 정확도와 성능을 지속해서 향상, 학습 인터페이스와 결합해 인공지능 보조 교사인 AI 튜터로 구현하겠다"라며 "향후 AI 튜터 서비스를 모든 교육 현장과 솔루션에 접목해 글로벌 교육 시장을 혁신할 것"이라고 전했다. 

한편 업스테이지는 지난달 허깅페이스의 LLM 리더보드에서 솔라로 세계 1위를 차지한 데 이어, 연말에는 솔라 기반 미세조정 모델이 1~10위를 휩쓰는 이변을 만들어 냈다. 또 연초 국내 Ko-LLM 리더보드에서도 1~10위 모델중 8개가 솔라를 기반으로 할 정도로, 국내외에서 가장 인기있는 오픈 소스 소형언어모델(sLM) 기업이 됐다.

장세민 기자 semim99@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지