해상도 2048x2048까지 가능...
해상도 4배 향상 기능 추가
성인콘텐츠 필터링 기능 탑재
특정 작가 스타일의 이미지 생성은 불가

스테이블디퓨전으로 만든 이미지 (사진=스태빌리티AI)
스테이블디퓨전으로 만든 이미지 (사진=스태빌리티AI)

'미드저니'에 이어 '스테이블 디퓨전'도 이미지 품질이 크게 개선됐다. 생성하는 이미지의 기본 해상도를 기존 512x512 픽셀에다 768x768 픽셀을 추가해 두 종류로 늘렸다. 또 여기에 해상도를 4배 향상시키는 업스케일러 기능을 추가해 최대 2048X2048 픽셀까지 나올 수 있게 했다.

스태빌리티AI가 이처럼 생성 이미지의 해상도를 대폭 높인 인공지능(AI) 이미지 생성기 '스테이블 디퓨전 버전2'를 개발해 배포했다고 사진전문 매체 페타픽셀을 비롯한 외신이 29일(현지시간) 보도했다.

스태빌리티AI는 보도자료에서 "버전2는 새로운 텍스트 인코더(OpenCLIP)을 이용해 훈련된 강력한 텍스트-이미지 모델이 포함돼 있어서 이전 버전보다 이미지 품질이 크게 향상됐다"고 설명했다.

해상도 768x768인 이미지 (사진=스태빌리티AI)
해상도 768x768인 이미지 (사진=스태빌리티AI)

앞서 미드저니는 이달초 버전4를 출시하면서 이미지내의 작은 물체나 배경 등 세부 사항을 더 뚜렷하게 보여주는 품질 개선 결과를 보여줬다. 해상도는 기본 1024x1024 픽셀로 유지하면서 업스케일하면 최대 1664x1664 픽셀까지 나오는 수준에는 변화가 없었지만 디테일을 살려 더 선명한 이미지를 생성하도록 기능을 개선했다.

오픈AI의 '달리'는 기본 이미지 해상도가 1024x1024 픽셀이다. 2048×1280 픽셀까지 업스케일할 수 있다. 

해상도 128x128 이미지(왼쪽)를 업스케일러 기능으로 512x512 해상도로 바꾼 이미지 (사진=스태빌리티AI)
해상도 128x128 이미지(왼쪽)를 업스케일러 기능으로 512x512 해상도로 바꾼 이미지 (사진=스태빌리티AI)

스테이블 디퓨전 버전2에는 또 원본 이미지의 내용을 유지하면서 변형을 만들어 내는 ‘뎁스 투 이미지(Depth-to-image)’라는 기능이 새로 추가됐다. 이 기능은 입력된 이미지를 분석한 다음 텍스트와 이미지의 ‘깊이’ 정보를 모두 활용해 새 이미지를 생성한다. 원본과 달라 보이지만 일관성을 유지하는 이미지들이다.

이와 함께 이미지의 일부를 빠르게 전환할 수 있는 인페이팅 기능도 업그레이드했다. 회사측은 이밖에 버전2에 성인 콘텐츠를 걸러내는 필터를 배치해 부적절한(NSFW) 이미지를 생성하지 못하도록 했다고 밝혔다.

스테이블디퓨전 버전2의 뎁스투이미지 기능을 적용한 이미지들 (사진=스태빌리티AI)
스테이블디퓨전 버전2의 뎁스투이미지 기능을 적용한 이미지들 (사진=스태빌리티AI)

스테이블 디퓨전 버전 2는 그러나 기존에 있었던 특정 아티스트의 스타일로 사진을 만드는 기능이 없어져 일부 이용자들이 불만을 표시하고 있다고 페타픽셀이 보도했다. 이와 관련해 스태빌리티AI의 이마드 모스타크 CEO는 프로그램이 데이터를 인코딩하고 검색하는 방식을 변경한데 따른 것이라고 기술매체 더버지와의 인터뷰에서 해명했다.

이런 일각의 논란에도 불구하고 새 버전은 프롬프트를 해석하고 일관된 이미지를 만드는데 더 나아졌다는 평가가 나온다고 페타픽셀은 전했다. 또 스테이블 디퓨전은 개발자가 무료로 제품에 통합할 수 있는 오픈 소스 도구기 때문에 중요한 AI 이미지 생성기라고 이 매체는 평가했다.

예를 들어 가족계보를 만들어 주는 웹사이트인 마이헤러티지는 최근 스테이블 디퓨전 기술을 이용해 인물의 배경 시대를 바꿔주는 AI타임머신이라는 도구를 내놨다고 페타픽셀은 지적했다.

정병일 위원 jbi@aitimes.com

키워드 관련기사
  • 고흐·피카소가 기후 위기를 그려냈다면...AI 생성 이미지 등장
  • AI 타임머신으로 시간 여행
  • 인간·AI, 100년전 무성 영화 OST 합작했다