이미지 생성 인공지능(AI) 미드저니의 최신판, '버전5(v5)'가 등장했다.
아르스테크니카는 16일(현지시간) 미드저니가 이미지 프롬프트 뒤에 ‘–v5’를 추가하거나 설정에서 ‘midjourney v5’를 선택해 테스트할 수 있는 v5 모델의 알파 릴리스를 발표했다고 보도했다.
새 모델은 구글 클라우드의 AI 슈퍼클러스터에서 구글의 TPU v4를 기반으로 훈련했다. 크게 수정된 신경망 구조와 새로운 미적 기법을 사용했다. 개발은 약 5개월 걸렸다.
그 결과 ▲넓어진 스타일 범위 ▲프롬프트에 대한 빠른 반응성 ▲더 상세한 이미지 ▲이전 버전보다 두 배의 이미지 해상도 지원 등 발전을 이뤘다.
미드저니 v5 모델은 더 사실적이며 높은 수준의 디테일 및 정확도를 가진 이미지를 생성할 수 있다. 1024x1024를 기본 해상도로 제공하고, 입력에 빠르게 반응하도록 조정됐다.
데이비드 홀츠 미드저니 설립자는 v5를 '프로페셔널 모드'라고 칭했다. 이전 모델과 달리 예술적 스타일에 대한 제한이 적고 더 다양한 이미지 결과를 제공하기 때문이다.
특히 사람의 손을 잘 생성할 수 있다는 점도 부각됐다. 손가락이 5개인 것은 물론 대부분의 경우 손의 모양까지 정확하게 그려낸다. 이전 버전에서는 어려웠던 부분이다.
이에 대해 줄리 웨이랜드 그래픽 디자이너는 트위터를 통해 "시력이 나빴던 사람이 갑자기 안경을 쓴 느낌"이라며 "갑자기 모든 것을 4k로 보는 듯 이상하게 압도적이면서도 놀라운 느낌이 든다"고 극찬했다.
대신 사용하기가 어려울 수 있다는 것은 단점으로 꼽혔다. 원하는 결과를 얻으려면 조명과 분위기 등 같은 세부 사항을 명확하게 설명하는 더 긴 프롬프트가 필요할 수 있다. 짧은 프롬프트에 작동하지 않을 수도 있다.
또 v5에는 몇 가지 새로운 실험 옵션도 있다. ‘타일러블 스테이블 디퓨전(Tileable Stable Diffusion)’처럼 끊김 없이 반복되는 패턴을 사용하는 이미지를 생성하기 위해 ‘-tile’ 인수를 사용할 수 있다. 또 ‘–ar’ 인수는 가로 세로 비율이 2대1보다 큰 이미지를 만드는 데 사용할 수 있다.
홀츠 설립자는 "개발을 계속함에 따라 v5 모델이 최종 릴리스 전 대폭 수정될 수 있다"고 언급했다. 현재 생성하는 이미지와 몇 주 또는 몇 달 후 생성 이미지가 다를 수 있다는 말이다.
한편 v5가 출시된 후에도 사용자가 안정적인 모델을 원하면 이전 버전을 계속 사용할 수 있다.
박찬 위원 cpark@aitimes.com
