완벽해진 '미드저니'….'버전5' 알파테스트

박찬 위원
업데이트 2023.03.20 14:13
입력 2023.03.17 17:41
댓글 0

이 기사를 공유합니다

이미지 생성 인공지능(AI) 미드저니의 최신판, '버전5(v5)'가 등장했다.

아르스테크니카는 16일(현지시간) 미드저니가 이미지 프롬프트 뒤에 ‘–v5’를 추가하거나 설정에서 ‘midjourney v5’를 선택해 테스트할 수 있는 v5 모델의 알파 릴리스를 발표했다고 보도했다.

새 모델은 구글 클라우드의 AI 슈퍼클러스터에서 구글의 TPU v4를 기반으로 훈련했다. 크게 수정된 신경망 구조와 새로운 미적 기법을 사용했다. 개발은 약 5개월 걸렸다.

그 결과 ▲넓어진 스타일 범위 ▲프롬프트에 대한 빠른 반응성 ▲더 상세한 이미지 ▲이전 버전보다 두 배의 이미지 해상도 지원 등 발전을 이뤘다.

미드저니 v5 모델은 더 사실적이며 높은 수준의 디테일 및 정확도를 가진 이미지를 생성할 수 있다. 1024x1024를 기본 해상도로 제공하고, 입력에 빠르게 반응하도록 조정됐다.

데이비드 홀츠 미드저니 설립자는 v5를 '프로페셔널 모드'라고 칭했다. 이전 모델과 달리 예술적 스타일에 대한 제한이 적고 더 다양한 이미지 결과를 제공하기 때문이다.

특히 사람의 손을 잘 생성할 수 있다는 점도 부각됐다. 손가락이 5개인 것은 물론 대부분의 경우 손의 모양까지 정확하게 그려낸다. 이전 버전에서는 어려웠던 부분이다.

이에 대해 줄리 웨이랜드 그래픽 디자이너는 트위터를 통해 "시력이 나빴던 사람이 갑자기 안경을 쓴 느낌"이라며 "갑자기 모든 것을 4k로 보는 듯 이상하게 압도적이면서도 놀라운 느낌이 든다"고 극찬했다.

대신 사용하기가 어려울 수 있다는 것은 단점으로 꼽혔다. 원하는 결과를 얻으려면 조명과 분위기 등 같은 세부 사항을 명확하게 설명하는 더 긴 프롬프트가 필요할 수 있다. 짧은 프롬프트에 작동하지 않을 수도 있다.

또 v5에는 몇 가지 새로운 실험 옵션도 있다. ‘타일러블 스테이블 디퓨전(Tileable Stable Diffusion)’처럼 끊김 없이 반복되는 패턴을 사용하는 이미지를 생성하기 위해 ‘-tile’ 인수를 사용할 수 있다. 또 ‘–ar’ 인수는 가로 세로 비율이 2대1보다 큰 이미지를 만드는 데 사용할 수 있다.