프랑스의 인공지능(AI) 스타트업 미스트랄이 이미지와 텍스트를 모두 처리할 수 있는 멀티모달모델(LMM)을 처음으로 선보였다.
테크크런치는 11일(현지시간) 미스트랄이 '픽스트랄 12B(Pixtral 12B)'를 출시했다고 보도했다.
픽스트랄 12B는 기존에 출시한 언어모델 '네모(Nemo) 12B'를 기반으로 4억개의 매개변수 비전 어댑터가 추가된 것이 특징이다.
비전 어댑터는 AI 모델에 이미지 처리 기능을 추가하는 구성 요소다. 텍스트 기반 모델에 추가, 1024×1024 해상도의 이미지를 입력으로 받아들이고 분석할 수 있도록 지원한다. 웹상의 URL 이미지를 불러오거나 base64 인코딩 체계를 사용해 이미지를 텍스트 형식으로 변환 처리할 수 있다.
픽스트랄 12B는 비전 어댑터를 통해 이미지를 인식하고 자동으로 자막을 작성하는 등의 시각적 작업을 수행할 수 있다.
깃허브와 허깅페이스의 토런트 링크를 통해 오픈 소스로 제공되며, 전체 파일 크기는 약 24GB에 달한다. 이 모델은 누구나 상업적 용도로 사용할 수 있다. AI 챗봇 '르챗(Le Chat)'과 AI 개발 플랫폼 '라플랫폼(La Platforme)'에서도 곧 테스트용으로 제공된다.
한편, 이번 출시는 제너럴 카탈리스트가 주도하는 6억4500만달러(약 8700억원) 규모의 펀딩 라운드를 마감한 직후에 이뤄졌다.
창업 1년 남짓된 미스트랄은 이 라운드에서 시장가치가 60억달러(약 8조원)로 평가됐다. 이 회사는 '유럽판 오픈AI'로 여겨지고 있다.
특히 올 들어 가장 활발하게 모델을 출시하는 AI 스타트업 중 하나다.
지난 2월에는 고급 다국어 지원 기능과 향상된 추론, 코드 생성, 수학 성능을 제공하는 GPT-4급 ‘미스트랄 라지 2(Mistral Large 2)’를 출시했다. 이어 22억 매개변수의 코딩 모델 ‘코드스트랄(Codestral)’, 전문가 혼합 모델 ‘믹스트랄 8x22B(Mixtral 8x22B)’, 그리고 수학적 추론 및 과학적 발견을 위한 전용 모델 ‘매스트랄 7B(Mathtral 7B)’를 잇달아 내놓았다. 이 가운데 멀티모달모델 공개는 이번이 처음이다.
박찬 기자 cpark@aitimes.com
