(사진=라이터)
(사진=라이터)

생성 인공지능(AI) 전문 스타트업 라이터(Writer)가 그래프와 차트를 포함해 이미지에서 텍스트를 생성하는 새로운 멀티모달 AI 모델을 출시하며 기업 서비스 강화에 나섰다.

벤처비트는 27일(현지시간) 라이터가 이미지를 분석하고 이를 기반으로 텍스트를 생성할 수 있는 텍스트 및 시각적 이해가 가능한 멀티모달 언어모델(LMM) ‘팔미라-비전(Palmyra-Vision)’을 출시했다고 보도했다.

이에 따르면 팔미라-비전은 기업이 이미지, 차트, 그래프, 기타 시각적 입력은 물론 자연어 이해와 관련된 복잡한 작업 흐름을 간소화할 수 있도록 설계됐다. 이 모델은 이미지에서 손으로 쓴 텍스트를 추출하고, 개체와 색상을 분류하고, 차트, 그래프, 인포그래픽, 흐름도를 해석하고, 이미지에 대한 질문에 답하고, 텍스트 설명을 생성할 수 있다.

즉 광학문자인식(OCR) 기능을 갖춰, 기업의 비정형 데이터에 대응한다는 전략이다.

메이 하비브 라이터 CEO는 “팔미라-비전은 소매부터 보험, 제약까지 다양한 산업 전반의 실제 사용 사례를 해결하기 위해 고객을 염두에 두고 구축했다”라고 말했다. 

라이터는 언어 이해, 상식 및 문맥 언어 이해에 초점을 맞춘 26만5000개 이상의 이미지에 대한 개방형 질문 데이터 세트인 VQAv2에 대해 벤치마크 테스트한 결과,  팔미라-비전이 84.4%를 기록하여 오픈AI의 GPT-4V 다중 모드 모델 77.2%와 구글의 제미나이 울트라 1.0 77.8%을 능가했다고 밝혔다.

소매업, 생산성, 규정, 마케팅, 디자인, 의료 등 전반에 걸쳐 광범위한 사용 사례를 보유한 것을 강점으로 꼽았다.

또 기존 OCR 기술은 손으로 쓴 텍스트를 처리하는 데 어려움을 겪을 수 있지만, 팔미라-비전 모델은 필기 품질이 낮은 경우에도 채팅이 가능하다는 설명이다.

차트와 그래프를 정기적으로 사용하는 사용자를 위해 새 모델은 이미지를 해석하고 요약, 노하우가 없는 사용자에게도 통찰력과 시사점을 제공한다고 밝혔다.

팔미라-비전 모델은 영어, 스페인어, 프랑스어, 중국어, 힌디어, 아랍어, 러시아어 등 30개 이상의 다국어를 지원한다. 하비브 CEO는 “정확한 번역을 원한다면 다국어 기능을 갖춘 모델인 ‘팔미라-X'와 연동해 팔미라-비전의 출력을 번역할 수 있다”라고 말했다.

라이터는 재스퍼와 함께 기업이나 개인에게 글쓰기 기능을 제공하는 초창기 생성 AI 간판 스타트업이다. 챗GPT 출시 이후 서비스가 겹치자, 재스퍼처럼 다양한 기능을 도입해 사업 확대를 노리고 있다. 

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지