중국의 유력 인공지능(AI) 스타트업 스텝펀이 1조개의 매개변수를 가진 대형언어모델(LLM) ‘스텝-2(Step-2)’를 선보였다. 며칠 전 공개한 딥시크의 'V3' 모델이 6710억개의 매개변수로 오픈 소스 사상 최대 규모로 눈길을 끌었는데, 스텝-2는 그보다 2배나 큰 규모를 자랑한다.
실리콘앵글은 27일(현지시간) 스텝펀이 1조개 매개변수를 갖춘 LLM ‘스텝-2’를 테스트 중이라고 보도했다.
스텝펀은 마이크로소프트(MS) 아시아연구소의 수석 과학자였던 장다신이 2023년 4월 설립한 스타트업으로, 얼마 전부터 '중국의 AI 6마리 작은 용' 중 하나로 꼽히고 있다.
올해 초 스텝펀은 1000억개 이상의 매개변수를 가진 멀티모달 언어모델(LMM) ‘스텝-1V’를 출시했으며, 이미 한달 전부터 1조개 이상의 매개변수를 가진 ‘스텝-2’ 모델을 테스트하는 것으로 알려졌다.
스텝-2는 ‘전문가 혼합(MoE)’ 아키텍처를 사용 텍스트 생성, 논리적 추론, 수학 문제 해결 등 다양한 작업에서 성능을 향상시키기 위해 설계됐다.
스텝펀은 1만6000 토큰의 컨텍스트 창을 지원하는 ‘스텝-2-16k’ 버전을 통해 수학, 추론, 프로그래밍, 언어 이해, 지시 수행 및 데이터 분석 등을 평가하는 라이브벤치에서 중국 LLM 중 1위, 세계적으로는 5위를 기록했다.
특히, 복잡한 지시를 이해하고 수행하는 지시 수행 능력에서 86.57점을 기록하며 전체 1위를 차지했고, 58.67의 추론 점수와 54.86의 데이터 분석 점수를 얻었다. 그러나 코딩과 수학 분야에서는 각각 46.87과 48.88점에 그쳤다.
이 모델이 주목받은 것은 이날 스텝펀이 국유 사모펀드 및 현지 빅테크 기업들로부터 수억달러 규모의 펀딩 라운드를 마쳤기 때문이다. 정확한 투자 금액은 공개되지 않았다.
한편, 중국 LLM 중 가장 큰 모델은 2023년 공개된 화웨이의 '판구-시그마(PanGu-Σ)'로, 1조850억개의 매개변수를 가진 것으로 알려졌다. 스텝-2의 크기와 흡사하다.
스텝펀은 이번 투자금으로 멀티모달 기능을 추가하고 모델의 고급 추론 능력을 개선할 계획이다. 또 LLM을 기반으로 개인 사용자들을 위한 제품도 출시할 예정이다.
박찬 기자 cpark@aitimes.com
