구글, 사진에서 인간 감정까지 읽어내는 VLM '팔리젬마 2' 출시

박찬 기자
업데이트 2024.12.06 18:34
입력 2024.12.06 18:00
댓글 0

이 기사를 공유합니다

구글이 새로운 비전언어모델(VLM) ‘팔리젬마 2(PaliGemma 2)’를 오픈 소스로 공개했다. 이 모델은 단순히 객체를 식별하는 것을 넘어 이미지 속에서 감정과 동작을 분석하고, 장면의 전반적인 서사를 파악할 수 있는 고도화된 기능을 갖추고 있다고 밝혔다.

구글은 5일(현지시간) 이미지 캡션 작성과 텍스트 이해, 객체 감지 및 분할, 시각적 질문 응답(VQA) 등 다양한 기능을 제공하는 오픈 소스 VLM ‘팔리젬마 2’를 출시했다.

이는 지난 5월 출시된 '팔리젬마'의 후속 모델로, 기존 모델 대비 더욱 길고 세밀한 사진 설명을 생성할 수 있는 점이 특징이다.

구글의 '젬마 2' 언어 모델을 기반으로 개발, 언어 처리 능력이 크게 향상됐다. 이를 통해 복잡하고 디테일한 이미지 분석이 가능, 실질적인 활용도가 높아졌다는 설명이다.

모델 크기는 30억, 100억, 280억 매개변수로 구성된다. 구글의 AI 전용 프로세서인 TPUv5를 활용해 학습 효율성을 극대화했으며, 일반 PC 환경에서도 효과적으로 실행될 수 있도록 최적화했다.

또 224p 해상도만 지원했던 기존 모델과 달리, 이번 버전은 448p와 896p 고해상도까지 지원해 활용폭을 넓혔다.

글씨를 정밀하게 인식하는 광학문자인식(OCR) 기술과 표의 구조와 내용을 이해하는 기능도 강화됐다.

구글은 이 모델이 화학 공식 및 음악 악보 인식, 공간 추론, 흉부 X-레이 보고서 생성 등에서 탁월한 성능을 보였다고 강조했다. 예를 들어, 텍스트 인식 평가 벤치마크인 'ICDAR 15'와 '토털텍스트' 데이터셋에서 F1 점수 75.9를 기록해 기존 최고 성능을 뛰어넘었다.