LDM3D로 생성한 360도 3D 이미지 파노라마의 한 장면 (사진=인텔)
LDM3D로 생성한 360도 3D 이미지 파노라마의 한 장면 (사진=인텔)

인텔이 텍스트 설명으로 3D 모델을 만드는 생성 AI 모델 'LDM3D'를 공개했다. 텍스트 프롬프트에서 깊이 정보를 지닌 360도 3D 이미지를 생성할 수 있는 최초의 모델이다.

인텔은 22일(현지시간) 캐나다에서 열린 컴퓨터 비전 및 패턴 인식에 관한 연례회의 'CVPR 2023'에서 사실적인 3D시각 콘텐츠를 제작하는 새로운 확산모델인 LDM3D(Latent Diffusion Model for 3D)를 발표했다.

LDM3D는 잠재안정확산모델(LDM)의 일종이다. 현재 사용되고 있는 대부분의 생성 AI는 2D 이미지 생성에 국한돼 있다. 인텔은 블로케이드랩스와의 협력을 통해 LDM3D에 4억개 이상의 이미지 및 캡션을 포함하고 있는 LAION-400M 데이터 베이스 샘플을 학습시켰다. 이를 통해 LDM3D는 기존 LDM과 동일한 수의 파라미터로도 텍스트 프롬프트를 통한 이미지와 깊이 맵 생성이 가능해졌다. 깊이 추정을 위한 표준 처리 방법에 비해 이미지 각 픽셀에 대한 더욱 정확한 상대적 깊이를 제공할 수 있어 상당한 시간을 절약한다.

LDM3D 파이프라인 아키텍처 (사진=인텔)
LDM3D 파이프라인 아키텍처 (사진=인텔)

사용자가 이전에는 상상할 수 없던 방식으로 텍스트 프롬프트를 경험할 수 있게 함으로써 디지털 콘텐츠와 상호 작용하는 방식을 혁신적으로 바꿀 수 있다.

LDM3D로 생성된 이미지와 뎁스 맵을 통해 사용자는 텍스트 묘사를 고요한 열대 해변, 현대적인 고층 빌딩 또는 공상 과학 세계의 설명을 360도 디테일한 파노라마로 전환할 수 있다. 

방대한 정보를 포착할 수 있는 이 기능은 전반적인 사실감과 몰입감을 즉각적으로 향상시켜 엔터테인먼트, 게임, 인테리어 디자인, 부동산 목록은 물론 가상 박물관부터 몰입형 가상 현실(VR) 경험까지 다양한 산업 분야에서 혁신적인 애플리케이션을 구현할 수 있다.

LDM3D로 생성한 깊이 맵 (사진=인텔)
LDM3D로 생성한 깊이 맵 (사진=인텔)

LDM3D 모델은 인텔 제온 프로세서와 인텔 하바나 가우디 AI 가속기로 구동되는 인텔 AI 슈퍼컴퓨터에서 학습됐다. 결과 모델 및 파이프라인은 생성된 RGB 이미지와 뎁스 맵을 결합해 몰입감 넘치는 360도 뷰를 생성한다.

LDM3D는 인텔 제온 프로세서와 하바나 가우디 AI 가속기 기반으로 현대 마천루나 공상과학영화에 등장하는 360도 공간을 생성할 수 있다. 이렇게 만들어진 360도 공간은 가상현실·증강현실 등 엔터테인먼트와 부동산 매물, 가상 박물관 등에 활용된다.

또 인텔과 블로케이드랩스는 LDM3D의 잠재력을 입증하기 위해 표준 2D RGB 사진과 깊이 맵을 활용하여 몰입형 대화식 360도 뷰 경험을 생성하는 애플리케이션인 ‘뎁스퓨전(DepthFusion)을 개발했다. 

영상 속 화살표를 클릭하면 360도 3D 파노라마를 볼수 있는 LDM3D VR 데모 (영상=인텔)

뎁스퓨전은 실시간 멀티미디어 콘텐츠를 위한 노드 기반 시각적 프로그래밍 언어인 터치 디자이너(TouchDesigner)를 활용, 텍스트 프롬프트를 상호활동적이고 몰입감 있는 디지털 경험으로 전환한다. LDM3D 모델은 RGB 이미지와 뎁스 맵을 모두 생성하는 단일 모델로서 메모리 공간을 절약하고 지연 시간을 개선한다.

LMD3D는 허깅페이스를 통해 오픈소스로 제공된다. AI 연구진들은 이 시스템을 더욱 개선하고 애플리케이션에 따라 조정할 수 있다.

한편 LDM3D는 지난 18일부터 22일까지 캐나다 밴쿠버에서 진행된 CVPR 2023 컨퍼런스에서 최우수 논문상을 수상하기도 했다.

박찬 기자 cpark@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지