(사진=셔터스톡)
(사진=셔터스톡)

프랑스의 간판 스타트업 미스트랄 AI가 상업적 사용이 가능한 오픈 소스 코딩 AI 모델을 공개했다. 새로운 아키텍처를 채택, 더 빠른 시간에 더 긴 코드를 생성할 수 있다고 강조했다.

벤처비트는 17일(현지시간) 미스트랄이 코딩 AI 모델 ‘코드스트랄 맘바(Codestral Mamba)’를 공개했다고 소개했다.

미스트랄은 지난 5월 첫 코딩용 생성 AI 모델인 ‘코드스트랄(Codestral)’을 오픈소스로 출시했지만, 상업적 사용은 금지했다. 그러나 이번에 공개한 코드스트랄 맘바는 상업적 사용이 가능하다.

특히 기존 모델에서 널리 사용되던 트랜스포머 아키텍처가 아닌 맘바 아키텍처를 채택한 것이 특징이다.

이를 통해 컨텍스트 창이 커지면 추론이 느려지고 메모리 공간이 많이 필요한 트랜스포머 아키텍처의 약점을 보완했다.

맘바는 2023년 말 카네기멜론대학교와 프린스턴대학교 연구자이 개발한 대형언어모델(LLM)을 위한 새로운 아키텍처다. '선택적 상태 공간 모델(SSM)' 기술을 활용해 시퀀스의 각 토큰을 현재 입력에 따라 선택적으로 처리할 수 있다. 관련 정보는 유지하고 불필요한 정보는 버리는 방식으로 효율적인 학습이나 작업이 가능하다.

따라서 긴 컨텍스트도 빠르게 처리할 수 있고, 컨텍스트 길이에 제한이 없는 등의 특징을 가진다.

이를 적용한 코드스트랄 맘바 70B는 벤치마크에서 '코드라마 7B'나 '코드젬마-1.17B' '딥시크' 등 동급 오픈 소스 모델 중에서 최상위 성능을 보였다. 220억 매개변수의 코드스트랄 모델에는 전반적으로 성능이 떨어졌지만, 일부 지표에서는 앞섰다.

코드스트랄 맘바 벤치마크 (사진=미스트랄)
코드스트랄 맘바 벤치마크 (사진=미스트랄)

미스트랄은 코드스트랄 맘바의 컨텍스트 내 검색 기능을 25만6000토큰까지 테스트했으며, 로컬에서 작동하는 코드 어시스턴트로서 뛰어난 성능을 발휘할 수 있을 것으로 기대하고 있다고 밝혔다.

코드스트랄 맘바 모델은 허깅페이스에서 다운로드할 수 있으며 미스트랄 공식 라이브러리인 미스트랄 인퍼런스(Mistral Inference)를 통해서도 사용할 수 있다.

한편 미스트랄은 수학과 관련된 추론과 과학적 발견을 위해 특별히 설계된 AI 모델 ‘매스트랄 7B(Mathtral 7B)’도 공개했다. 매스트랄은 3만2000토큰 길이의 컨텍스트 창을 제공한다. 

매스트랄 벤치마크 (사진=미스트랄)
매스트랄 벤치마크 (사진=미스트랄)

미스트랄에 따르면, 벤치마크에서 매스트랄 7B가 수학적 추론을 위해 설계된 모든 모델보다 성능이 우수한 것으로 나타났다.

역시 허깅페이스에서 다운로드할 수 있으며, 상업적 용도로 사용할 수도 있다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지