달리, 스테이블 디퓨전, 미드저니 사용 방법

[편집자 주] 하루가 멀다하고 새로운 기술들이 쏟아져 나옵니다. AI는 모든 산업 분야에 영향을 미칠 핵심 기술이 되었습니다. [찬이의 IT교실]은 AI를 비롯해 어렵고 생소한 IT 기술과 산업을 알기 쉽고 재미있게 풀어 드리겠습니다.

AI 이미지 생성기는 최근 몇 달 동안 웹을 휩쓸었습니다. 이 AI 시스템은 텍스트 설명을 이미지로 변환합니다. ‘백마를 탄 우주비행사’를 입력하면 시스템이 이것을 백마를 탄 우주비행사의 이미지로 변환합니다. 

이러한 서비스 중 첫 번째인 오픈AI에서 개발한 달리(DALL-E)는 놀라운 사실감의 고해상도 이미지를 생성합니다. 이후에 등장한 미드저니(Midjourney)나 스테이블 디퓨전(Stable Diffusion)과 같은 시스템도 똑같이 인상적입니다.

AI 이미지 생성이 인기를 얻으면서 많은 사람들이 자신의 컴퓨터에서 AI 이미지를 생성하는 방법을 찾고 있습니다. 

'달리2' 사용법을 설명하는 영상 중에서 (사진=오픈AI 홈페이지 캡쳐)
'달리2' 사용법을 설명하는 영상 중에서 (사진=오픈AI 홈페이지 캡쳐)

달리(DALL-E) 사용 방법

달리는 오픈AI에서 개발한 AI 이미지 생성기입니다. 오픈AI는 이를 인터넷에 도입했지만 소프트웨어에 대한 액세스는 매우 제한적이었죠. 2022년 초 제한된 공개 베타로 변경한 데 이어 지금은 모든 사람이 사용할 수 있는 전체 베타 서비스를 진행하고 있습니다. 

1단계 오픈AI에 로그인합니다. 처음 사용하는 경우 로그인하려면 계정을 만들어야 하지만 완전히 무료입니다. 시간을 절약하려면 구글 또는 마이크로소프트 계정으로 로그인할 수도 있습니다. 오픈AI는 2단계 인증이 필요하므로 휴대전화를 사용하세요.

오픈AI 로그인 화면
오픈AI 로그인 화면

2단계 가입을 완료하면 오픈AI에서 달리를 소개합니다. AI를 시작하려면 ‘계속(Continue)’를 선택합니다. 그러면  크레딧에 대한 설명이 나옵니다. 처음 등록하면 첫 달 동안 실험할 수 있는 50개의 무료 크레딧을 받게 됩니다.

그 후 매월 추가로 15크레딧을 받을 수 있습니다. 크레딧 당 한 번의 이미지 생성을 요청할 수 있습니다. 오픈AI 스토어를 통해 언제든지 추가 크레딧을 구입할 수 있는데 115크레딧이 15달러입니다.

달리 소개 화면
달리 소개 화면

3단계 달리 홈 화면에서 시작할 수 있는 몇 가지 다른 옵션이 표시됩니다. 자신의 설명을 프롬프트 필드에 입력하거나, 지침에 따라 AI가 편집할 이미지를 업로드(Upload)하거나, 이미 잘 만들어진 설명을 자동 생성하는 ‘Surprise me’를 선택할 수 있습니다.

4단계 프롬프트 필드에 설명을 입력합니다. 영어로 400자이내로 입력할 수 있습니다.  가능한 구체적으로 작성하십시오. 'Generate'을 클릭하면 달리가 프롬프트에 따라 4개의 이미지 옵션을 생성합니다. 오류 메시지가 표시되면 잠시 후 다시 시도하십시오.

설명 입력 화면
설명 입력 화면

5단계 설명에 포함해야 하는 세부 정보에 익숙해질 때까지 첫 번째 결과 후에 프롬프트를 편집하고 다시 시도해야 한다는 것을 알게 될 것입니다.

위에서 스키를 타는 다람쥐의 첫 번째 이미지 세트에서 다람쥐는 겁에 질린 것처럼 보입니다. 즐기고 있는 것처럼 보이길 원하면 프롬프트를 수정해야 합니다.

'미소(Smiling)'를 추가할 수 있습니다. 이제 그는 더 행복해 보입니다. 새로 생성할 때마다 크레딧이 필요하므로 주의하십시오.

프롬프트 수정 화면
프롬프트 수정 화면

6단계 마음에 드는 이미지가 있으면 4개의 이미지 중 하나를 클릭하세요. 다음 화면에서 이미지를 다운로드할 수 있습니다(이미지 오른쪽 상단의 화살표 클릭).

이미지를 편집할 수도 있습니다. 'Edit'을 클릭하면 지우개와 같은 도구와 AI 생성에 추가할 이미지를 업로드하거나 이미지를 확장할 수 있는 옵션이 나타납니다. 이미지의 '변형'을 생성할 수도 있습니다. ‘Variation’을 선택하면 달리는 생성한 이미지의 4가지 대체 버전을 생성합니다.

달리를 사용하는 다른 방법은 휴대전화나 컴퓨터에서 이미지를 업로드하는 것입니다. 프롬프트 필드 바로 아래에 있는 링크를 클릭하세요. 이미지를 업로드할 수 있습니다. 업로드한 이미지는 정사각형으로 잘립니다. 

사용하려는 이미지를 업로드한 후에는 달리가 이미지의 고유한 변형(Variation)을 생성하도록 하거나 이미지를 편집(Edit)할 수 있습니다.

아래 예에서 우산을 쓴 누군가를 지나쳐가는 자전거를 타는 소녀의 이미지를 업로드했습니다. 추가의 입력 없이 달리는 원본의 두 주제를 결합하는 몇 가지 흥미로운 변형을 생성했습니다.

업로드 이미지의 변형 화면
업로드 이미지의 변형 화면

달리는 아웃페인팅(Outpainting) 편집 기능을 이용해 원본 이미지의 경계를 넘어 이미지를 확장할 수 있습니다. 이미지를 생성하거나 업로드한 다음 이미지의 모서리를 드래그해 생성 프레임에서 크기를 줄입니다.

프롬프트를 작성합니다. 이 경우에는 달리가 원본 이미지의 스타일과 일치시키려고 하기 때문에 더 일반적일 수 있습니다.

아래 예에서는 '산악 풍경'이라고 입력했습니다. 그러면 달리가 프레임의 나머지 부분을 이미지에 맞게 채울 것입니다. 

아웃페인팅 전의 이미지
아웃페인팅 전의 이미지
아웃페인팅 후의 이미지
아웃페인팅 후의 이미지

 

스테이블 디퓨전(Stable Diffusion) 사용 방법

스테이블 디퓨전을 무료로 실행하려면 구글 코랩(Colab)에서 스테이블 디퓨전을 시작하면 됩니다. 구글 코랩은 클라우드 기반 코딩 환경이라 인프라 설정을 걱정할 필요가 없습니다. 

1단계 허깅페이스(Hugging Face)에서 스테이블 디퓨전을 다운로드 합니다. 이를 위해 허깅 페이스의 계정이 필요합니다. 매우 간단합니다.

홈페이지(https://huggingface.co/join)에서 계정을 만들고 이메일을 확인하세요.

2단계 먼저 스테이블 디퓨전 구글 코랩에서 ‘파일(File) > 드라이브에 사본 저장(Save as copy in drive)’으로 이동합니다 .

‘구글 코랩 메뉴 - ‘드라이브에 사본 저장’ 화면
‘구글 코랩 메뉴 - ‘드라이브에 사본 저장’ 화면

드라이브에 노트북이 저장된 새 탭이 열립니다. 이제 이름이 ’Copy of Stable Diffusion with diffusers’ 로 지정 되었습니다. 원하는 대로 이름을 바꿀 수 있습니다.

3단계 스테이블 디퓨전을 실행하려면 구글 코랩이 GPU를 사용하고 있는지 확인해야 합니다. 이렇게 하려면 메뉴에서 ‘런타임(Runtime) > 런타임 유형 변경(Change runtime type)’ 으로 이동합니다.

구글 코랩 메누  -  ‘런타임 유형 변경’ 화면
구글 코랩 메누  -  ‘런타임 유형 변경’ 화면

하드웨어 가속기(Hardware Accelerator) 아래에 드롭다운이 있는 작은 창이 나타납니다. 그곳에서 GPU 를 선택합니다.  ‘저장(Save)’을 클릭하면 계속 진행할 수 있습니다.

하드웨어 가속기 GPU 설정 화면
하드웨어 가속기 GPU 설정 화면

4단계 이제 스테이블 디퓨전 코랩에서 첫 번째 셀를 실행할 수 있습니다. 각각에 마우스를 가져가면  재생 버튼 이 나타납니다. 클릭하고 완료될 때까지 기다리면 됩니다. 셀이 완료되면 녹색 확인 표시가  표시됩니다. 각 셀 위에 수행하는 작업에 대한 설명이 있습니다.

"이 노트북에는 높은 램이 필요합니다(this notebook requires high ram)"와 같은 메시지가 나타나면 ‘확인(ok)’을 클릭합니다.

구글 코랩에서 처음 3개의 셀 실행 화면
구글 코랩에서 처음 3개의 셀 실행 화면

5단계 네 번째 셀을 실행합니다 . 다음과 같은 내용이 표시됩니다.

허깅 페이스 토큰(Token)으로 인증을 요청하는구글 코랩 화면
허깅 페이스 토큰(Token)으로 인증을 요청하는구글 코랩 화면

이것은 허깅페이스로 인증해야한다는 의미입니다. 해당 필드에 암호와 같은 토큰을 입력해야 합니다. 이렇게 하려면 ‘허깅페이스 토큰 페이지(your Hugging Face token page)’ 링크를 클릭하세요

앞에서 설명한 것처럼 계정을 만들었다면 로그인할 수 있거나 이미 로그인되어 있어야 합니다.

‘새 토큰(New token)’을 클릭하면 다음과 같은 창이 나타납니다. 이름(Name)을 지정하고(참고용일 뿐이며 원하는 이름 사용)  역할(Role)을 ‘write’로 설정한 다음 ‘토큰 생성(Generate a token)’을 클릭합니다. 

허깅페이스 인증 토큰 요청 화면
허깅페이스 인증 토큰 요청 화면

이제 다음과 같이 토큰이 생성되어야 합니다.

허깅페이스 인증 토큰 생성 화면
허깅페이스 인증 토큰 생성 화면

‘표시(Show)’ 아이콘을 클릭해 생성된 허깅페이스 토큰을 복사하고 구글 코랩으로 돌아가 붙여넣습니다. 

‘토큰(Token)’ 필드에 붙여넣고 ‘로그인(Login)’을 클릭하면 몇 초 후에 다음과 같은 내용이 표시됩니다. 빨간색 텍스트를 무시 하십시오. 

허깅페이스 로그인 성공 화면
허깅페이스 로그인 성공 화면

6단계 스테이블 디퓨전에 액세스하려면 몇 가지 조건에 동의해야 합니다. 스테이블 디퓨전의 저자와 이메일 및 사용자 이름(Hugging Face에 사용)을 공유하는 데 동의합니다. ‘https://huggingface.co/CompVis/stable-diffusion-v-1-4-original’로 이동한 다음 ‘확인 표시’를 클릭해 약관에 동의하고 ‘저장소 액세스(Access repository)’ 를 클릭하여 액세스합니다.

약관 동의 및 허깅 페이스 저장소 액세스 화면
약관 동의 및 허깅 페이스 저장소 액세스 화면

7단계 다음으로 스테이블 디퓨전 파이프라인에서 필요한 구성 요소를 다운로드 하는 다섯 번째 셀을 실행합니다  .

스테이블 디퓨전 파이프라인 다운로드 실행 화면
스테이블 디퓨전 파이프라인 다운로드 실행 화면

그런 다음 스테이블 디퓨전 파이프라인을 GPU로 이동하기 위해 여섯번째 셀을 실행합니다.

여섯 번째 셀 화면
여섯 번째 셀 화면

8단계 이제 첫 번째 이미지를 생성할 수 있습니다. 이미 그 아래에 이미지가 있는 다음 셀에서 첫 번째 이미지를 생성합니다. 이미지로 변환하고 싶은 텍스트를 따옴표 안에 입력하고 셀을 실행하면 됩니다.

프롬프트 ‘a protoss cityscape with advanced technology, inspired by the game starcraft, making heavy use of light and shadow to create a sense of mystery and foreboding. the city sprawling below is a mix of organic and inorganic, with swirling energy currents and strange crystalline structures, illustrated in a realistic and detailed style by wei wang, artstation’ 입력 화면
프롬프트 ‘a protoss cityscape with advanced technology, inspired by the game starcraft, making heavy use of light and shadow to create a sense of mystery and foreboding. the city sprawling below is a mix of organic and inorganic, with swirling energy currents and strange crystalline structures, illustrated in a realistic and detailed style by wei wang, artstation’ 입력 화면

한 번에 3개의 이미지도 생성할 수 있습니다. ‘from PIL import Image’로 시작하는 셀을 실행하고 다음 셀에서 텍스트 프롬프트를 편집하고 실행하십시오.

한번에 여러 이미지 생성 화면
한번에 여러 이미지 생성 화면

이 노트북은 스테이블 디퓨전을 시작하는 빠른 방법일 뿐만 아니라 스테이블 디퓨전으로 개발하기 위한 튜토리얼이기도 하기 때문에 작동 방식에 대한 정보와 다양한 설정의 예가 있습니다. 

 

미드저니(Midjourney) 사용 방법

미드저니 베타 무료 평가판으로 약 25개의 무료 이미지를 만들 수 있습니다. 그 후에 계속하려면 전체 멤버십을 구매해야 합니다. 미드저니 베타 버전은 2022년 8월에 출시됐습니다.

1단계 미드저니 베타를 사용하려면 디스코드(Discord) 계정만 있으면 됩니다. 디스코드 웹사이트에서 무료 계정을 등록할 수 있습니다 .

2단계 디스코드 계정이 있다면 미드저니 웹사이트로 이동해 ‘베타 가입(Join the beta)’을 선택합니다. 그러면 디스코드로 이동합니다.

미드저니 베타 가입 화면
미드저니 베타 가입 화면

3단계 ‘초대 수락(Accept Invite)’를 선택해 미드저니에 대한 디스코드 초대를 수락합니다. 그런 다음 ‘계속 디스코드(Continue to Discord)’를 선택합니다.

디스코드 이동 화면
디스코드 이동 화면

4단계 디스코드앱이 자동으로 열리지 않습니다. 그럴 때 왼쪽 메뉴에서 우주선 모양의 ‘미드저니 아이콘’을 선택합니다.

5단계 미드저니 채널에서 ‘신규 사용자 방(Newcomer room)’을 찾습니다. 일반적으로 ‘newbies-108’과 같은 이름으로 많은 신규 사용자 방이 열립니다. 이 중 아무거나 선택해 시작할 수 있습니다.. 

미드저니 채널로 이동 화면
미드저니 채널로 이동 화면

6단계 이제 AI 이미지를 생성할 준비가 되었습니다. 선택한  ‘#newbies’ 채널에 들어간 후 ‘/imagine’을 입력하고 ‘공백(whitespace)’을 제공한 다음 ‘Prompt’ 키워드 뒤에 설명을 입력해야 합니다 . ‘/imagine’을 입력하고 ‘공백’을 지정하면 ‘Prompt’ 키워드가 자동으로 나타납니다.

프롬프트 입력 화면
프롬프트 입력 화면

7단계 미드저니는 설명에 따라 4개의 이미지를 생성합니다. 이미지 아래를 보면 1부터 4까지 레이블이 지정된 U 및 V 버튼 섹션이 표시됩니다. 숫자는 미드저니가 생성한 4개의 이미지에 해당합니다.

U를 선택하면 해당 이미지가 고품질의 이미지로 확대됩니다. V를 선택 하면 해당 이미지를 기반으로 완전히 새로운 이미지가 생성됩니다. 새 이미지 세트를 요청하기 위해 측면에 ‘새로 고침’ 버튼을 선택합니다. 

이미지 생성 화면
이미지 생성 화면

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • '달리', MS 오피스·엣지·빙에 통합
  • [찬이의 IT교실] 이미지 생성 AI ②...최고의 AI 이미지 생성기는?
  • [찬이의 IT 교실] 이미지 생성 AI ①...상상이 현실이 되다