최신 바이러스성 AI 도구, 트위터에 등장
오픈AI의 DALL-E mini 버전을 대중에 공개
텍스트 프롬프트를 초현실적 이미지로 생성

트위터(Twitter)에서 다소 기이한 사진을 발견했다면 아마도 이미지 생성기 DALL-E mini가 생성한 것일 것이다. 용암 소용돌이를 달리는 미켈란젤로의 다비드상.(사진=트위터)
트위터(Twitter)에서 다소 기이한 사진을 발견했다면 아마도 이미지 생성기 DALL-E mini가 생성한 것일 것이다. 용암 소용돌이를 달리는 미켈란젤로의 다비드상.(사진=트위터)

트위터(Twitter)에서 다소 기이한 사진을 발견했다면 아마도 이미지 생성기 달리 미니(DALL-E mini)를 사용하는 것일 것이다. DALL-E mini는 인공 지능을 사용해 사용자가 입력한 프롬프트를 기반으로 이미지를 생성하는 AI 모델이다. 기본적으로 사진 격자 형식으로 가장 기이한 개념이나 시나리오를 시각화할 수 있다. 기계 학습 엔지니어인 보리스 데이마(Boris Dayma)가 구글과 AI 커뮤니티인 허깅 페이스(Hugging Face)가 개최한 대회의 일환으로 2021년 7월에 GPT-3을 기반으로 만들어졌다. 

오픈AI에는 세 가지 버전의 프로그램이 있다. 허깅 페이스에서 제공되는 DALL-E mini는 가장 우습고 가장 상상력이 풍부한 이미지를 생성하기 때문에 인기 있는 버전이다. DALL-E는 좀 더 정교하기 때문에 이미지가 훨씬 더 사실적이고 DALL-E 2는 DALL-E의 업그레이드 및 개선된 버전이다.

[관련기사]오픈AI, 텍스트를 고해상도 이미지로 생성하는 AI 시스템 ‘DALL-E 2’ 개발

DALL·E mini는 구글의 TPU Research Cloud에 의해 구동되며 구글이 지난달 출시한 Imagen과 유사하게 이미지를 생성하는 AI 모델이지만 대중이 접근할 수 있다는 점만 다를 뿐이다. 

[관련기사]구글, ‘DALL-E 2’와 경쟁하는 ‘Imagen’ 발표

DALL-E mini는 누구나 프롬프트를 입력하고 ‘실행(Run)’ 버튼을 누를 수 있다. 하지만 종종 트래픽이 많아 대한 오류 메시지가 표시되고 다시 시도해야 할 수도 있다. DALL·E mini는 9개의 이미지가 포함된 3x3 격자 형태로 결과를 내보낸다. 그것들 중 하나를 클릭하여 더 크게 만들고 마우스 오른쪽 버튼을 클릭하거나 길게 탭하여 저장할 수 있다. 결과에 만족하지 않으면 실행을 다시 클릭해 동일한 프롬프트로 다른 요청을 할 수 있다.

웹사이트에 있는 이 도구에 대한 메모에는 "인터넷에서 필터링되지 않은 데이터을 학습해 사회적 편견을 강화하거나 악화시키는 데 사용될 수 있다”고 나와 있다. DALL·E mini를 직접 사용해보고 싶은 사람들은 여기에서 찾을 수 있다. 

DALL·E mini는 AI를 사용해 사용자가 입력한 프롬프트를 기반으로 일련의 사진을 생성하는 이미지 생성기다.(사진=허깅 페이스)
DALL·E mini는 AI를 사용해 사용자가 입력한 프롬프트를 기반으로 일련의 사진을 생성하는 이미지 생성기다.(사진=허깅 페이스)

그러나 DALL·E mini는 개념은 잘 묘사하지만 사람의 얼굴과 관련된 부분에서 부분적으로 선명도 낮은 이미지를 생성한다. 데이마는 모델이 학습하는 과정이며 시간이 지남에 따라 개선될 수 있다고 말한다. 

이 AI 생성기가 더 강력해질수록 더 명확하고 구체적인 결과로 미래에 더 유용할 것이다. 우리는 그것이 너무 강력해져서 세상을 지배하지 않기를 바랄 뿐이다.

수박 먹고 있는 골룸 캠.(사진=트위터)
수박 먹고 있는 골룸 캠.(사진=트위터)
밀실에서 춤추는 조 바이든(사진=트위터)
밀실에서 춤추는 조 바이든(사진=트위터)
고흐가 그린 간달프.(사진=트위터)
고흐가 그린 간달프.(사진=트위터)

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]“무엇이든 물어봐”...딥마인드, 소량의 데이터 만으로 학습하는 시각 언어 모델 공개

[관련기사]메타, 언어 모델 OPT-175B 무료 공개

키워드 관련기사
  • “AI는 외계어를 사용한다”…DALL-E 2가 생성하는 비밀 언어
  • 딥마인드의 가토(GATO)가 인간 수준의 AI? “해로운 주장”
  • 구글, 5400억 매개변수 초대형 언어 모델 ‘PaLM’ 공개