LFM2-VL 아키텍처 (사진=리퀴드 AI)
LFM2-VL 아키텍처 (사진=리퀴드 AI)

어텐션 메커니즘의 대안 '액체 신경망'으로 유명한 리퀴드 AI가 초저지연·고효율 비전-언어 모델(VLM) ‘LFM2-VL’을 공개했다. 휴대폰과 노트북, 웨어러블, 임베디드 기기 등 하드웨어에서 고속 처리와 높은 정확도를 동시에 구현하는 온디바이스 모델이다.

리퀴드 AI는 12일(현지시간) 'LFM2(Liquid Foundation Model 2)' 아키텍처를 확장해 텍스트와 이미지를 동시에 처리할 수 있는 차세대 모델 LFM2-VL을 출시했다.

핵심 기술은 입력마다 가중치를 실시간으로 생성하는 ‘LIV(Linear Input-Varying)’ 시스템이다. 이를 통해 GPU 추론 속도를 동급 모델 대비 최대 두배 향상하면서도 정확도를 유지했다고 설명했다.

▲450M 매개변수의 초경량 버전 ‘LFM2-VL-450M’ ▲1.6B 매개변수의 고성능 경량 버전 ‘LFM2-VL-1.6B’ 두가지를 공개했다. 모두 최대 512×512 해상도의 이미지를 원본 비율 그대로 처리할 수 있으며, 더 큰 이미지는 비중첩 패치 분할과 섬네일 결합 방식을 통해 세부와 전체 맥락 모두를 반영한다.

아키텍처는 언어 모델 백본, SigLIP2 NaFlex 비전 인코더, 그리고 2단 MLP 구조의 멀티모달 프로젝터 등으로 구성됐다. 프로젝터는 ‘픽셀 언셔플(Pixel Unshuffle)’ 기법을 적용해 이미지 토큰 수를 줄이고 처리 속도를 높였다. 사용자는 이미지 토큰 수나 패치 수를 조정해 처리 속도와 품질을 상황에 맞게 최적화할 수 있다.

훈련에는 약 1000억개의 멀티모달 토큰이 사용됐으며, 오픈 데이터셋과 합성 데이터가 혼합됐다.

벤치마크 결과 (사진=리퀴드 AI)
벤치마크 결과 (사진=리퀴드 AI)

벤치마크에서는 리얼월드QA(65.23), 인포VQA(58.68), OCR벤치(742) 등에서 준수한 성능을 기록했고, 특히 GPU 환경에서 1024×1024 이미지와 짧은 프롬프트를 처리하는 속도에서 동급 최강 결과를 보였다.

리퀴드 AI는 온디바이스 AI 개발 생태계 확장을 위해 ‘LEAP(Liquid Edge AI Platform)’ SDK와 오프라인 모델 테스트 앱 ‘아폴로(Apollo)’도 출시했다.

LEAP는 iOS와 안드로이드 등 OS에 구애받지 않고 300MB 수준의 초소형 모델도 구동 가능해, 저사양 환경에서도 실시간 AI 실행이 가능하다.

LFM2-VL 모델은 현재 허깅페이스를 통해 공개됐다.

상업적 활용이 가능하지만, 연 매출 1000만달러(약 139억원) 이상 기업과 그 이하 기업에 따라 라이선스 정책이 다르게 적용될 예정이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지