알리바바가 이미지 생성과 편집 능력을 대폭 강화한 차세대 멀티모달 인공지능(AI) 모델을 공개했다. 기존의 이미지 이해 모델을 기반으로 한 만큼, 고품질 이미지 생성은 물론 다양한 기능을 갖춘 것이 특징이다.

알리바바는 28일(현지시간) 이미지 이해와 생성 기능을 통합한 멀티모달 모델 ‘큐원-VLo(Qwen-VLo)’를 공개했다. 

큐원-VLo는 기존의 비전-언어 모델인 큐원-VL을 기반으로 이미지 생성 기능을 추가해, 텍스트와 이미지 양방향 이해 및 생성이 가능한 통합 프레임워크를 갖췄다. 입력 이해와 출력 생성 간의 양방향 멀티모달 처리를 지원해, 이미지를 해석하고 설명하는 동시에 텍스트나 스케치를 바탕으로 새로운 이미지를 제작할 수 있다. 

우선, 텍스트 프롬프트나 단순한 스케치와 같은 거친 입력을 기반으로 고해상도 이미지를 생성할 수 있는 능력을 갖췄다. 모델은 추상적인 개념을 이해하고 이를 시각적으로 정교하고 미학적으로 완성된 이미지로 변환한다. 이런 기능은 디자인 및 브랜딩 기획 초기 단계의 아이디어 구상에 특히 유용하다.

또 자연어 명령만으로 이미지 세부 요소를 실시간으로 반복 수정할 수 있다. 사용자는 오브젝트 배치, 조명, 색상 테마, 구도 등을 손쉽게 조정할 수 있으며, 제품 사진 보정이나 디지털 광고 콘텐츠 제작 등에서 수작업 편집 도구 없이도 효율적인 작업이 가능하다. 예를 들어 사용자가 “조명을 따뜻하게 바꿔줘”나 “배경에 나무를 추가해 줘”와 같은 문장을 입력하면 즉시 반영된 이미지가 생성된다.

이 모델은 다국어 학습 기반으로 훈련, 다양한 언어 환경에서도 원활히 작동한다는 것도 장점이다. 전 세계 사용자들이 전자상거래, 출판, 교육 등 다양한 산업군에서 활용할 수 있도록 설계됐다.

특히 복잡한 장면을 한 번에 렌더링하는 대신, 사용자가 단계적으로 장면을 구성하는 '점진적 생성(Progressive Generation)' 방식을 지원한다. 이미지를 좌측에서 우측, 상단에서 하단으로 순차적으로 구성해 나간다.

이 과정에서 모델은 예측 결과를 지속적으로 정교화하고 최적화해, 최종 이미지가 일관되고 조화롭게 완성되도록 한다. 이를 통해 사용자는 결과물을 더 세밀하게 통제할 수 있다는 설명이다.

또 이미지 편집과 재생성 기능뿐 아니라, 객체 탐지, 이미지 분할, 윤곽선 감지 등 다양한 주석(annotation) 작업도 수행할 수 있다. 복수의 입력 이미지를 동시에 이해하고 처리할 수 있어, 멀티 이미지 기반의 생성 및 분석 작업에 강점을 보인다.

텍스트와 이미지가 결합된 입력을 지원하는 것은 물론, 텍스트 기반의 직접적인 이미지 생성도 가능하다. 이는 일반적인 이미지뿐 아니라 중·영문 혼합 포스터 생성까지 포함, 마케팅 및 콘텐츠 제작에 실용적으로 활용할 수 있다.

유동적인 화면 비율을 지원, 4대 1이나 1대 3과 같은 극단적인 비율의 이미지 생성도 무리 없이 소화할 수 있다. 

시바견 이미지를 생성한 뒤 배경과 액세서리, 문구 등을 추가하고 지브리 스타일로 변환한 예 (사진=알리바바)
시바견 이미지를 생성한 뒤 배경과 액세서리, 문구 등을 추가하고 지브리 스타일로 변환한 예 (사진=알리바바)

자신이 생성한 이미지에 대한 재해석 및 이해 능력도 갖췄다. 예를 들어, 생성된 이미지 안에 있는 고양이와 개의 품종을 식별하는 것과 같은 인식 작업도 수행할 수 있다. 이는 생성 AI의 결과물을 다시 분석해 활용도를 높이는 중요한 기능으로 주목된다.

알리바바는 "이 모델은 세상을 이해할 뿐만 아니라, 그 이해를 기반으로 고품질의 재현을 생성해 인식과 창조 사이의 틈을 메운다"라고 강조했다.

현재 큐원-VLo는 ‘큐원 챗(Qwen Chat)’을 통해 미리 체험할 수 있으며, 앞으로 오픈 소스 커뮤니티에 차례로 공개할 예정이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지