플로이드 IF 사용 사례 (출처=유튜브 Александр Доброкотов 채널 'Lyric video, but it's AI Generated')

테크크런치는 7일(현지시간) 스테빌리티AI의 연구 조직 딥플로이드가 텍스트까지 집어넣을 수 있는 이미지 생성 인공지능(AI) 모델 '딥플로이드 IF'를 최근 공개했다고 소개했다.
 
이에 따르면 10억개가 넘는 이미지와 텍스트 데이터셋으로 훈련한 딥플로이드 IF는 '달리'나 '스테이블 디퓨전'과는 달리 학습한 이미지에서 읽어낸 문자를 생성 이미지에 포함할 수 있다는 점이 가장 큰 차별점이다. 

딥플로이드 IF를 테스트 중인 앵거스 러셀 나이트카페 CEO는 "한두 단어 생성에 성공한 스테이블 디퓨전 XL을 뛰어넘는 기능으로 사용자들을 열광하게 만들었다"라며 "이는 로고 디자인, 웹 디자인, 포스터, 광고판, 심지어 밈까지 연결되는 새로운 생성 예술 가능성을 열 것으로 기대한다"고 말했다.

또 기존 모델이 사용하는 '확산 모델(Diffusion Model)'을 한 차례가 아닌 여러 차례 수행해 이미지를 생성한 다음 이를 업스케일링하는 방식을 사용해 정교한 그림을 만들어내며, 대형 언어 모델(LLM)의 크기로 인해 '분홍색 공 위에 빨간색 상자'와 같은 복잡한 프롬프트에도 정확하게 반응한다는 설명이다.

다른 이미지 생성 AI와의 비교 (사진=딥플로이드)
다른 이미지 생성 AI와의 비교 (사진=딥플로이드)

물론 아직 모든 면에서 만족할 만한 이미지를 만들어 내지는 못하며, 이를 보완하기 위해 미세조정을 계속할 것이라는 계획도 소개했다.

더불어 딥플로이드 측은 이미지 생성 AI의 문제인 저작권을 해결하기 위해 학습용 데이터셋에 '맞춤형 필터'를 사용했다고 밝혔다. 그러나 어떤 콘텐츠가 얼마나 삭제됐는지는 구체적으로 공개하지 않았다.

임대준 기자 ydj@aitimes.com

키워드 관련기사
  • '미드저니' 생성 이미지 예술 수준으로 도약
  • 내 손에서 다시 태어난 메텔...'은하철도 999' 전시회에 등장한 생성 AI
  • 스태빌리티AI, 이미지 4배로 확대해주는 업스케일러 배포