미스트랄이 이미지와 다양한 문서를 이해하는 새로운 광학문자인식(OCR) API를 출시하며 역대 최고 성능을 자랑한다고 밝혔다. 이는 기업 수요에 대응하려는 의도다.
미스트랄은 6일(현지시간) PDF와 이미지를 정밀하게 분석해 멀티모달 요소를 추출하고 이를 구조화된 형식으로 제공하는 새로운 API '미스트랄 OCR'을 출시했다.
기존의 OCR 솔루션들이 텍스트 추출에 집중한 반면, 미스트랄 OCR은 손글씨 노트, 타이핑된 텍스트, 이미지, 표 및 수식 등을 높은 정확도로 추출한다. 개발자는 이 API를 통해 OCR 기능을 손쉽게 애플리케이션이나 웹 서비스에 통합할 수 있다.
텍스트 속에 삽입된 이미지와 사진을 감지하고, 그래픽 요소 주위에 경계 상자를 추가해 출력에 포함한다. 또 텍스트를 단순히 출력하는 것에 그치지 않고, 마크다운 형식으로 결과를 제공해 링크나 헤더 등 다양한 서식을 쉽게 추가할 수 있게 한다. 마크다운은 문서나 데이터 구조를 명확히 표시하는 텍스트 기반의 마크업 언어다.
이 API의 마크다운 출력은 AI 시스템과의 호환성이 뛰어난 것이 특징이다. 즉, 텍스트를 단순히 추출하는 데 그치지 않고, AI가 데이터를 효과적으로 활용할 수 있도록 구조화한다.
또 기본 OCR 기능을 넘어 문서 이해 기능을 제공한다. 대형언어모델(LLM)과 통합, 텍스트와 문서 구조를 추출한 뒤 사용자가 자연어로 문서 내용을 검색하고 상호작용할 수 있게 한다. 예를 들어, 특정 문서에 대해 질의응답, 자동 정보 추출 및 요약, 문서 간 비교 분석, 문서 전체 맥락을 고려한 상황별 응답 등이 가능하다.
미스트랄 OCR은 벤치마크 테스트에서 구글 '도큐먼트 AI', '애저 OCR', 오픈AI 'GPT-4o' 등 주요 모델보다 뛰어난 성능을 보였다. 특히, 수학 인식과 문서 스캔, 다국어 텍스트 처리 부문에서 가장 높은 정확도를 기록했다.
이 API는 단일 노드에서 분당 최대 2000페이지를 처리할 수 있어 대량 문서 처리에 매우 적합하다.
제공 가격은 1000페이지당 1달러이며, 미스트랄 플랫폼은 물론, AWS와 애저, 구글 클라우드 버텍스 등 클라우드 파트너를 통해 제공된다. 또 민감한 데이터를 다루는 기업을 위해 온프레미스 배포도 지원된다.
한편, 미스트랄은 최근 기업용 AI 시장을 겨냥, 잇달아 기능을 강화하고 있다. 이번에 출시한 OCR도 기업들이 가장 많이 요청하는 기능 중 하나다.
앞서 지난 11월 출시한 '르 샤' 플랫폼에는 ▲웹 검색 ▲캔버스 ▲멀티모달모델(LMM) ‘픽스트랄 라지’ ▲이미지 생성 기능 ▲에이전트 기능 등을 대거 추가, 비즈니스 경쟁력을 대폭 강화했다.
박찬 기자 cpark@aitimes.com
