텍스트로 고해상도 이미지를 생성하는 AI 신경망 시스템 개발
수정하려는 이미지에 대해 자연어로 수정 사항을 지정해 편집
유해한 이미지의 생성을 제한하는 데이터 세트와 필터를 적용
디지털 이미지를 만들고 편집할 때 새로운 아이디어들을 제공

DALL-E 2는 "사실적인 스타일로 말을 타고 있는 우주 비행사"라는 명령에 따라 이러한 이미지를 생성했다.(사진=오픈AI)
DALL-E 2는 "사실적인 스타일로 말을 타고 있는 우주 비행사"라는 명령에 따라 이러한 이미지를 생성했다.(사진=오픈AI)

미국의 인공지능 연구소 오픈AI(OpenAI)가 보고 싶은 것을 텍스트로 설명하면 디지털 이미지로 생성해 주는 AI 시스템을 만들었다고 최근 자사 블로그를 통해 발표했다. 이 시스템은 고해상도의 이미지를 짧은 응답 시간안에 생성하고 포토샵이나 디지털 아트 기술 없이 간단한 도구와 텍스트 수정으로 이미지를 쉽게 편집할 수 있다. 

오픈AI 연구원 알렉스 니콜(Alex Nichol)은 "이와 같은 도구가 사람들이 원하는 것은 무엇이든 만들 수 있는 능력을 공유하기 바란다"며 이 도구는 디자이너와 예술가들이 영감을 얻거나 브레인스토밍 또는 실제 작품 제작을 하는데 유용할 수 있다고 말했다. 또한 현재 소프트웨어가 애니메이션이나 비디오가 아닌 정지 이미지를 생성하지만 컴퓨터 게임 회사들이 이를 사용해 다양한 장면과 캐릭터를 생성하기를 원할 것이라고 덧붙였다.

오픈AI가 만든 소프트웨어는 '달리 2(DALL-E 2)'라고 하며 2021년 초에 발표한 '달리(DALL-E)'의 후속 버전이다. 자율 로봇에 관한 2008년 애니메이션 영화 ‘WALL-E’와 초현실주의 화가 살바도르 달리(Salvador Dalí)를 기념해 DALL-E라고 부른다.

원본 DALL-E는 종종 일반 배경에 대해 만화 같은 방식으로만 이미지를 렌더링할 수 있었으나 새로운 DALL-E 2는 복잡한 배경, 피사계 심도(depth of field) 효과, 사실적인 그림자, 음영 및 반사가 포함된 사진같은 고해상도 이미지를 생성할 수 있다.

이러한 사실적인 이미지 생성은 컴퓨터를 이용해 렌더링할 수는 있지만 이를 생성하려면 상당한 예술적 기술이 요구된다. 하지만 DALL-E 2는 ‘베레모와 검은색 터틀넥을 입은 시바견’이라는 명령을 입력하기만 하면 해당 테마에 대해 수십 가지의 사실적인 이미지를 제시한다.

이 시바견 이미지는 오픈AI의 DALL-E 2 이미지 생성 소프트웨어로 생성됐다.(사진=오픈AI)
이 시바견 이미지는 오픈AI의 DALL-E 2 이미지 생성 소프트웨어로 생성됐다.(사진=오픈AI)

DALL-E 2에 ‘아보카도 모양의 찻주전자’를 요청하자 시스템은 10개의 짙은 녹색 아보카도 찻주전자 이미지를 생성했다.

DALL-E 2는 ‘아보카도 모양의 찻주전자’ 명령에 따라 이러한 이미지를 생성했다.(사진=오픈AI)
DALL-E 2는 ‘아보카도 모양의 찻주전자’ 명령에 따라 이러한 이미지를 생성했다.(사진=오픈AI)

‘체스를 하는 고양이’라고 입력했을 때 솜털이 보송한 새끼 고양이 두 마리가 바둑판 무늬 게임판 양쪽에 자리 잡고 사이에는 32개의 체스 말들이 줄지어 놓여 있는 이미지가 나왔다. '물속에서 트럼펫을 연주하는 테디베어'를 불러냈을 때 한 이미지는 곰의 트럼펫 끝에서 수면을 향해 작은 기포가 솟아오르는 것을 보여주었다.

DALL-E 2는 "체스를 하는 고양이"에 대한 명령에서 이 이미지를 생성했다.(사진=오픈AI)
DALL-E 2는 "체스를 하는 고양이"에 대한 명령에서 이 이미지를 생성했다.(사진=오픈AI)

DALL-E 2는 사진 편집도 가능하다. 사용자는 수정하려는 이미지 주위에 박스(box)를 배치하고 자연어로 수정 사항을 지정할 수 있다. 예를 들어 시바견의 베레모 주위에 상자를 놓고 ‘빨간 베레모 만들기’를 입력하면 이미지의 나머지 부분을 그대로 두고 베레모만 변경한다. 또한 사용자는 일반 텍스트를 지정해서 동일한 이미지를 다양한 스타일로 생성할 수 있다.

DALL-E 2는 아직 완벽하지 않다. 시스템은 복잡한 장면에서 세부 사항을 렌더링할 수 없는 경우가 있다. DALL-E 2에게 ‘달에 에펠탑을 올려달라’고 요청했을 때 아이디어를 잘 이해하지 못하고 탑 위의 하늘에 달을 놓는다거나, '모래가 가득한 거실'을 요청하면 거실이라기 보다는 공사장 같은 풍경을 연출하기도 한다. 그러나 DALL-E 2에게 요청을 약간 수정해 몇 단어를 더하거나 빼면 원하는 것을 제공한다. 

DALL-E 2는 ‘모래로 가득 찬 거실, 바닥에 모래, 방에 피아노’를 요청했을 때 이 이미지를 생성했다.(사진=오픈AI)
DALL-E 2는 ‘모래로 가득 찬 거실, 바닥에 모래, 방에 피아노’를 요청했을 때 이 이미지를 생성했다.(사진=오픈AI)

DALL_E 2는 많은 양의 데이터를 분석해 기술을 학습하는 신경망이다. 예를 들어 수천 장의 아보카도 사진에서 패턴을 정확히 찾아내어 아보카도를 인식하는 법을 배울 수 있다. DALL-E 2는 수백만 개의 디지털 이미지와 각 이미지가 나타내는 내용을 설명하는 텍스트 캡션을 분석하면서 패턴을 찾는다. 이런 식으로 이미지와 단어 사이의 연관성을 인식하는 방법을 배운다.

누군가 DALL-E 2에 '물속에서 트럼펫을 연주하는 테디베어'를 주문하면 이 이미지에 포함될 수 있는 주요 특징 세트가 생성된다. 한 가지 특징은 트럼펫 가장자리에 있는 선일 수 있다. 또 다른 하나는 테디베어의 귀 위쪽에 있는 곡선일 수 있다.

그런 다음 확산 모델이라고 하는 두 번째 신경망이 고해상도 이미지를 생성한다. 

DALL-E 2는 이전 버전보다 훨씬 세련된 제품처럼 보인다. 그러나 오픈AI는 GPT-3에서와 마찬가지로 검증을 위해 소규모 사용자 그룹에 먼저 공개한 후 DALL-E 2를 대중에게 공개할 계획이다. 

GPT-3도 유해한 텍스트를 생성할 수 있다 . 그러나 오픈AI는 GPT-3 사용자로부터 받은 피드백을 사용해 InstructGPT라는 더 안전한 버전을 학습했다면서 DALL-E 2도 유사한 경로를 따르기를 희망한다고 밝혔다. 오픈AI는 초기 사용자가 AI를 깨고 공격적이거나 유해한 이미지를 생성하도록 속이는 것을 오히려 권장한다. 이러한 문제를 해결하면서 오픈AI는 더 많은 사람들이 DALL-E 2를 사용할 수 있도록 할 것이다.

오픈AI는 폭력, 포르노, 정치색 등의 공격적인 이미지를 생성하도록 AI에 요청하는 것을 금지하는 DALL-E 2에 대한 사용자 정책을 발표하고 있다. 또한 딥 페이크를 방지하기 위해 사용자는 DALL-E 2에 실제 사람의 이미지를 생성하도록 요청할 수 없다. 오픈AI는 사용자 정책과 함께 폭력을 보여주는 이미지를 포함해 DALL-E 2의 훈련 데이터에서 특정 유형의 이미지를 제거했다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]말로 코딩하는 OpenAI 코덱스(Codex)...진정한 노코드(No-code) 실현해

[관련기사]엔비디아, 당신의 상상력을 명작으로 그려내는 딥러닝 기술 공개

키워드 관련기사
  • [CES 2022] “그림 전혀 못 그려도 AI로 나도 웹툰 작가”
  • 엔비디아, AI 디자인 도구 기능 강화...스케치부터 편집까지 만능키 역할 톡톡
  • MS-엔비디아, 초거대 AI ‘MT-NLG’ 공동 개발...규모·정확도 최고 수준