달리가 생성한 흰색 배경 이미지(사진=코디 내쉬)
달리가 생성한 흰색 배경 이미지(사진=코디 내쉬)

복잡하고 정교한 예술 이미지를 그려내는 '미드저니'나 '달리'와 같은 이미지 생성 인공지능(AI)이 의외로 단순한 흰색 배경 이미지 생성에는 어려움을 겪는 것으로 나타났다.

블립핑컴퓨터는 31일(현지시간) 미국의 데이터 과학자 코디 내쉬의 실험 결과를 인용, 달리와 미드저니가 단순한 흰색 배경 이미지 생성을 요청하는 프롬프트 요청에 대해 대부분 정확한 이미지 생성에 실패했다고 소개했다. 

이에 따르면 내쉬는 ‘흰색만 있는 이미지’ ‘흰색 흰색 흰색 흰색만 있는 이미지’ ‘추가 기능 없이 완전히 흰색’ ‘여백의 공백’ ‘순수한 #FFFFFF픽셀의 이미지’ ‘흰 벽’ 등의 프롬프트를 제출했지만, 모두 생성에 실패했다.

‘전체가 흰색인 부드러운 배경’을 요청했을 때 가장 가까운 이미지를 생성했지만, 흰색은 아니었다고 지적했다. 이처럼 순백이 아닌 이미지를 생성하는 경우가 많았으며, 미드저니는 불규칙한 무늬가 섞인 흰색 배경을 생성하기도 했다.

이는 AI 이미지 생성기에 일반적으로 사용되는 ‘확산(Diffusion) 모델’ 프로세스 때문이다. 이미지 생성하는 모델은 모호하고 흐릿한 노이즈 상태로 시작하며, 연속적인 샘플링 단계를 통해 이미지가 선명하고 사실적이 될 때까지 이미지를 다듬는다.

이 때문에 확산 모델에서 모든 픽셀의 노이즈가 완벽하게 흰색으로 바뀌길 때까지 샘플링 단계가 무한 반복될 수 있다는 지적이다.

미드저니가 생성한 검정색 배경 이미지(사진=코디 내쉬)
미드저니가 생성한 검정색 배경 이미지(사진=코디 내쉬)

다른 색상의 배경을 요청했을 때도 비슷한 결과가 나타났다. 미드저니는 ‘완전히 검은색 배경’을 요청하면 처음에는 거의 비어 있는 검은색 슬레이트로 시작하지만 프로세스가 진행됨에 따라 추상적 개체와 패턴이 더 복잡한 예술 형태로 맨 위에 추가된다. 

응답하지 말라는 요청에 대한 챗GPT-3.5 응답(사진=코디 내쉬)
응답하지 말라는 요청에 대한 챗GPT-3.5 응답(사진=코디 내쉬)

또 챗GPT와 같은 AI 챗봇의 경우에도 프롬프트에 응답하지 않도록 요청하면, 어떤 식이로든 응답하는 것으로 나타났다. 예를 들면 ‘...’ ‘알았다(Understood)’ 등 최소한의 응답을 제공하는 것을 확인할 수 있었다.

언어모델을 기반으로 한 챗봇이 질문을 이해하고 응답하는 것이 아니라, 프롬프트에 가장 적합한 다음 단어를 예측하는 방식으로 훈련됐기 때문에 요청에 답을 할 수 밖에 없다는 분석이다.

박찬 기자 cpark@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지