[찬이의 IT교실] 이미지 생성 AI ②...최고의 AI 이미지 생성기는? < 찬이의 IT교실 < 스페셜 리포트 < 기사본문

미드저니(좌), 달리(중) 및 스테이블 디퓨전(우)에서 생성한 프롬프트 ‘달착륙 촬영 비하인드, 헐리우드 스튜디오, 1969, 백스테이지 사진, 우주비행사 배우, 조명’의 이미지(사진=트위터)

인공지능(AI) 이미지 생성기는 현재 가장 흥미로운 기술 중 하나입니다. 특히 2022년에는 놀라운 텍스트-이미지 생성기들이 등장했습니다. 그 큰 물결을 일으킨 첫 번째 제품은 달리(DALL-E 2)였지요.

다양한 AI 모델을 기반으로 구축된 고품질 이미지 생성 도구가 증가하면서 스마트폰과 인터넷 연결만 있으면 누구나 AI가 생성한 이미지에 액세스 할 수 있게 됐는데요. 일부 무료 AI 이미지 생성기는 초현실적인 흐릿한 결과를 생성하기도 하지만 보다 강력한 도구를 사용하면 사실적인 이미지를 만들고 예술적 스타일을 재현할 수도 있습니다.

이 도구는 AI 모델을 사용해 프롬프트라고 하는 텍스트 입력을 이미지로 변환합니다. 한 단어를 추가하거나 제거하면 현저하게 다른 결과를 초래할 수 있습니다. 또 이 프롬프트를 해석하는 방법에 따라 다른 결과를 보여 주게 됩니다.

그렇다면 다양한 목적에 가장 적합한 AI 이미지 생성기는 무엇일까요? 현재 사용 가능한 최고의 AI 이미지 생성기 3가지를 직접 비교해 보았습니다.

달리 (DALL-E)

달리의 가장 큰 장점 중 하나는 얼핏 보면 실제 사진과 구분이 되지 않는 사실적인 이미지를 만들 수 있다는 것입니다.

품질 면에서 달리는 추상적인 입력을 해석하고 창의적인 결과를 생성하는 능력이 매우 뛰어납니다. 모호한 프롬프트를 제공해도 잘 작동합니다.

또 일반적으로 일관된 이미지를 만드는 데도 매우 능숙합니다. 예를 들어 정확한 수의 팔다리와 올바른 비율을 가진 사람을 지속적으로 생성할 수 있습니다.

미드저니(좌), 달리(중) 및 스테이블 디퓨전(우)에서 생성한 프롬프트 ‘놀라운 꽃다발, 매우 상세한, 검은 배경, 멋진 예술, 놀라운 세부 사항, artstation에서 유행하는, 옥탄 렌더’의 이미지(사진=트위터)

달리는 단순히 텍스트가 아닌 이미지로 프롬프트를 표시할 수 있습니다. 프롬프트로 원본 이미지를 제공하고 원하는 이미지를 설명하면 일련의 추가 이미지를 생성해 원본을 변형 합니다.

또 기존 이미지를 가져와 프롬프트에 따라 수정할 수 있는 인페인팅(inpainting) 기능이 있습니다. 이미지에 무언가를 추가하거나 제거하고 조명을 변경하도록 요청해 사진을 편집할 수도 있습니다.

달리는 아웃페인팅(outpaingting) 기능을 사용해 정사각형인 원래 이미지를 더 넓은 시야로 확장해 종횡비가 더 큰 그림을 생성할 수 있습니다.

아웃페인팅으로 확장된 ‘요하네스 베르메르의 진주 귀걸이를 한 소녀’ (사진=오픈AI)

달리는 상용 웹 기반이며 사용하기 가장 쉬운 시스템 중 하나로 알려져 있습니다. 최근 대중에게 완전히 공개돼 누구나 가입하고 바로 사용할 수 있습니다.

가입하면 처음 50회 생성 크레딧(크레딧당 4개 이미지)이 무료로 제공됩니다. 이후에는 매월 15회의 무료 생성 크레딧이 제공되며 추가로 115개의 크레딧당 15달러로 다소 비싼 편이죠.

기본 1024x1024 이미지 생성에 10초 정도의 시간이 걸립니다. 달리는 기본적으로 비공개 소스입니다. 다만 오픈AI는 달리의 기반이 되는 언어모델인 클립(CLIP)을 오픈소스로 공개했지요.

스테이블 디퓨전 (Stable Diffusion)

스테빌리티AI의 스테이블 디퓨전은 접근성에서 최고 점수를 받은 AI 이미지 생성기인데요. 충분히 강력한 컴퓨터만 있으면 누구든지 무료로 사용할 수있습니다.

최소 5.9GB VRAM(GPU RAM)이 있으면 로컬 컴퓨터나 구글 코랩(Colab)에서 30~40초 만에 512x512 이미지를 생성할 수 있습니다. 스테이블 디퓨전을 제대로 실행하려면 가능한 한 많은 VRAM을 갖춘 10 시리즈 이상의 엔비디아 GPU가 필요합니다.

미드저니(좌), 달리(중) 및 스테이블 디퓨전(우)에서 생성한 프롬프트 ‘허블 망원경 사진 f 놀라운 성운, 깊은 우주 사진, 놀라운 사진, 웜홀 및 성운’의 이미지(사진=트위터)

스테이블 디퓨전의 가장 좋은 점은 완전히 오픈소스라는 것입니다. 누구든지 무료로 스테이블 디퓨전을 이용해 자신의 소프트웨어를 만들 수 있습니다. 사용자들은 이미 원본 코드를 개선하고 빌드하기 시작했습니다.

WebUI를 통해 구글 코랩에서 스테이블 디퓨전 사용(영상=스테이블 디퓨전)

스테이블 디퓨전이 생성하는 이미지는 매우 사실적이고 상세하며, 인물에서 풍경, 추상 예술에 이르기까지 다양한 이미지를 생성할 수 있습니다.

특히 애니메이션 관련 이미지를 생성하는데 탁월합니다. 제한사항이 많지 않기 때문에 달리에서 허용하지 않는 유명인, 만화 캐릭터 및 공인의 이미지도 생성할 수 있습니다.

반면 충분히 큰 데이터 세트에서 훈련 받지 않았기 때문에 수정되지 않은 초기 프롬프트에서 이미지를 생성하는 것이 어려울 수도 있습니다.

스테이블 디퓨전의 또 다른 큰 특징은 이미지 비율을 쉽게 조정할 수 있다는 것입니다. 이것은 특정 크기나 종횡비의 이미지를 생성하는데 좋은 아웃페인팅 기능입니다.

또 최대 4배까지 해상도를 높일 수 있는 내장 기능과 달리처럼 이미지를 제공해 원본 이미지를 변경하거나 이미지를 편집하는 인페인팅 기능도 제공합니다.

스테이블 디퓨전은 드림 스튜디오(Dream Studio)와 같은 상용 웹기반 도구를 지원합니다. 가입하면 200회의 무료 생성 크레딧이 제공되고, 그 이후에는 100회 생성 크레딧당 1.18달러입니다.

미드저니 (Midjourney)

미드저니는 한 사용자가 생성한 작품으로 미술경연대회에서 우승한 후 품질로 명성을 얻고 동시에 논란도 불러일으켰었죠.

다소 독특하게 디스코드(Discord) 서버에서 운영합니다. 디스코드 봇 명령을 사용해 특히 예술적인 스타일의 고품질 이미지를 생성합니다.

미드저니(좌), 달리(중) 및 스테이블 디퓨전(우)에서 생성한 프롬프트 ‘검투사로서 개구리 커밋과 싸우는 검은 해골 마법사의 픽사 영화 장면, 놀라운 렌더링, 프레스토’의 이미지(사진=트위터)

미드저니는 텍스트 프롬프트를 입력해 다소 어둡게 느껴지는 종말론적인 이미지를 주로 생성합니다. 최근에 눈길을 끌었던 ‘지구상의 마지막 셀카’ 이미지를 만드는 데 사용된 도구입니다.

미드저니의 한 가지 단점은 극도로 양식화되어 있다는 것입니다. 이것은 미드저니에서 사실적인 이미지를 만드는 것을 거의 불가능하게 만듭니다.

예를 들어 기존 개념을 가져와 특정 유형의 그림이나 일러스트레이션처럼 렌더링합니다.

또 간단한 프롬프트에서도 매우 잘 작동하고 매우 높은 품질의 결과를 제공할 수 있지만 '창의력'이 약간 떨어질 수 있습니다.

미드저니는 기본 스타일과 모양을 가지고 있으며 모든 것을 아름답고 예술적으로 보이게 만드는 데 집중합니다.

미드저니의 가장 큰 장점은 다른 사용자가 만든 작품을 검색할 수 있는 검색 엔진이 내장되어 있다는 것입니다.

디스코드 서버와 모든 브라우저를 통해 액세스할 수 있는 대시보드에서 다른 회원의 창작물을 확인할 수 있습니다. 거기에서 가장 아름다운 AI 생성 이미지와 해당 프롬프트를 볼 수 있습니다. 이 이미지도 사용하고 수정할 수 있습니다.

미드저니는 기본적으로 비공개이지만 스테이블 디퓨전과 마찬가지로 유명인 및 공인의 이미지를 생성을 허용합니다. 이미지 생성에 약 1분 정도 걸립니다.

처음 25개 이미지는 무료이며 기본 요금제는 200개 이미지에 대해 월 10달러입니다. 무제한 사용을 위한 월30달러의 표준 멤버십도 있습니다. 미드저니는 생성된 이미지를 기업에서 연간 600달러의 특별 기업 회원으로 사용할 수 있도록 허용합니다.

물론 달리, 스테이블 디퓨전 및 미드저니가 AI 이미지 생성기의 전부는 아닙니다. 달리미니로 알려진 크레용(Crayion)이나 틱톡(TikTok)의 AI 그린스크린(AI Greenscreen)과 같은 도구와 같이 덜 정교하지만 액세스하기 훨씬 쉬운 도구들도 있습니다.

크레용은 웹사이트를 통해 누구나 완전히 무료로 사용할 수 있습니다. 크레용은 오픈AI의 달리와 아무 관련이 없습니다.

텍스트 프롬프트를 입력하기만 하면 크레용이 이미지를 생성하는 데 약 2분이 걸립니다. 크레용은 모든 프롬프트를 제한없이 수락합니다.

특정 스타일로 사진을 만들어달라고 요청할 수도 있습니다. 그러나 크레용에서는 제대로 된 사람의 얼굴을 생성하기 위해 얼굴의 각 부분의 크기와 위치를 나열하는 길고 자세한 프롬프트를 작성하는 많은 노력이 필요합니다.

틱톡은 사용자가 비디오용 맞춤형 그린스크린을 만드는 데 사용할 수 있는 기본 AI 이미지 생성기를 출시했습니다.

비디오 플랫폼의 새로운 효과는 ‘AI 그린스크린’ 이라고 하며 틱톡 사용자는 소프트웨어가 이미지로 생성할 텍스트 프롬프트를 입력할 수 있습니다.

그러나 소용돌이 모양의 추상 이미지만 생성하는 것처럼 보이기 때문에 달리, 스테이블 디퓨전 및 미드저니와는 거리가 멉니다.

박찬 위원 cpark@aitimes.com