기존 '야누스'(왼쪽)와 '야누스-프로'의 생성 이미지 비교 (사진=딥시크)
기존 '야누스'(왼쪽)와 '야누스-프로'의 생성 이미지 비교 (사진=딥시크)

추론 모델 'R1'으로 충격을 안겨 준 딥시크가 오픈 소스 이미지 모델을 출시했다. 언어모델에 이어 이미지 분야에서도 기세를 이어가려는 의도로, 오픈AI의 '달리 3'와 스태빌리티AI의 '스테이블 디퓨전'을 능가했다고 밝혔다.

딥시크는 27일(현지시간) 허깅페이스를 통해 이미지 이해 및 생성 모델 '야누스 프로 7B(Janus Pro 7B)'를 출시했다.

기술 논문에 따르면 이 모델은 효율성과 다양성이 장점으로, 사실적인 이미지 생성과 복잡한 시각적 추론, 이미지 캡션 생성 등 다양한 시각 작업에서 탁월하다. "성능과 계산 비용 간의 균형을 이루는 것을 목표로 하며, 광범위한 비전 작업에서 최첨단 성능을 달성했다"라는 설명이다.

지난달 출시한 V3와 지난주 공개한 R1에 이어, 한달 새 3번째 주요 모델 출시다. 이번에도 효율성을 거듭 강조했다. 방대한 계산 리소스를 요구하지 않고도 높은 수준의 성능을 제공할 수 있다는 말이다.

이 모델은 기존 '야누스' 모델을 업그레이드한 것이다. 연구진은 이전 모델의 한계를 극복하기 위해 이미지 이해를 담당하는 인코더와 이미지 생성을 처리하는 인코더를 분리, 작업별 성능을 최적화하고 출력 품질을 향상했다고 전했다. 대신, 처리를 위해서는 통합된 트랜스포머 아키텍처를 사용했다.

또 모델 학습 과정과 데이터 조정을 통해 효율적인 미세조정을 실시했으며, 특히 7200만개의 합성 데이터 샘플과 9000만개의 멀티모달 데이터셋을 포함해 안정성과 출력 정확도를 향상했다고 설명했다.

더불어 기존 10억개의 매개변수를 70억개 확장, 복잡한 입력과 다양한 작업을 처리하는 능력을 끌어올렸다고 강조했다.

입력 이미지 분석은 384x384 해상도로 제한된다. 하지만, 벤치마크에서는 다른 모델의 성능을 모두 능가했다.

특히 이미지 속 객체를 분석하는 '젠이밸(GenEval)'과 복잡하고 까다로운 프롬프트에 대한 이미지 생성 기능을 테스트하는 'DGP-벤치' 등에서 달리 3와 스테이블 디퓨전의 최신 버전인 'SDXL' 성능을 능가한다고 밝혔다.

벤치 마크 결과 (사진=딥시크)
벤치 마크 결과 (사진=딥시크)

연구진은 "야누스-프로는 이전 통합 모델을 능가하며, 작업별로 기존 모델의 성능과 동일하거나 더 뛰어나다"라며 "단순성, 높은 유연성 및 효과성은 이를 차세대 통합 멀티모달 모델의 강력한 후보로 만든다"라고 강조했다.

딥시크는 이 모델을 체험할 수 있는 데모 사이트도 공개했다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지