어도비가 5초 만에 2D 이미지를 3D로 바꿀 수 있는 획기적인 생성 인공지능(AI) 기술을 선보였다. 이를 통해 게임이나 애니메이션, 산업 디자인은 물론 증강현실(AR)과 가상현실(VR) 등 산업 분야에 혁신을 일으킬 수 있다고 주장했다.
벤처비트는 9일(현지시간) 어도비 리서치와 호주국립대학교 연구진이 단일 이미지를 3D로 변환하기 위한 '대규모 재구성 모델', 즉 'LRM(Large Reconstruction Model)'에 대한 논문을 온라인(arXiv)으로 발표했다고 보도했다.
이에 따르면 LRM은 매개변수 5억개가 넘는 매개변수를 가진 확장성이 뛰어난 트랜스포머 기반 신경망 아키텍처를 사용한다. 소규모 데이터셋을 학습한 이전 방식과는 달리 세계 최대 규모의 오픈 소스 3D 데이터셋인 '옵자버스(Objaverse)'와 MVImg넷 데이터셋을 통해 약 100만개의 3D 개체를 학습했다.
연구진은 "우리가 아는 한, LRM은 최초의 대규모 3D 재구성 모델"이라며 "대형 모델과 대규모 데이터학습을 통해 뛰어난 품질의 3D 이미지를 생성해 낼 수 있다"라고 설명했다.
실험에 따르면 LRM은 실제 이미지뿐만 아니라 '달리'나 '스테이블데퓨전' 등 AI 생성 이미지로부터도 3D 모델을 재구성할 수 있는 것으로 나타났다. 상세한 도형은 물론 나무결과 같은 섬세한 질감도 표현할 수 있다고 밝혔다.
특히 엔비디아 A100 GPU 1장을 이용해 2D를 3D로 전환하는 데 5초밖에 걸리지 않았다고 전했다.
더불어 연구진은 이 모델이 다양한 산업에 적용할 경우 시간과 비용을 크게 줄여줄 수 있다고 강조했다. AR이나 VR에서는 2D 이미지를 거의 실시간으로 3D로 전환, 사용자 경험을 향상할 수 있다고 전했다.
또 휴대폰으로 사진을 찍고 이를 3D 모델링할 수 있기 때문에 누구에게나 창의적이고 상업적인 기회를 열어줄 수 있다고도 전했다.
스태빌리티 AI도 지난 2일 게임이나 산업에 유용하다며 3D 전환 모델을 발표한 바 있다. 스테이블 디퓨전 플랫폼에 3D 이미지를 생성하는 ‘스테이블 3D(Stable 3D)’ 모델을 추가한 것. 국내에서는 리컨랩스가 비슷한 기술을 이미 서비스 중이다. 이처럼 이미지 생성 AI도 B2B 중심의 수익화에 무게가 실리고 있다.
연구진은 일부 영역에 대해서는 3D 텍스처가 흐릿하게 표현된다며 LRM에 한계가 있다고도 인정했다. 하지만 대규모 데이터셋 학습을 통한 트랜스포머 기반의 대형 이미지 모델의 가능성을 보여준다고 강조했다. 이제까지 이미지 생성 A는 대부분 확산(Diffusion) 모델 기반이었다.
자세한 내용은 연구 홈페이지에서 확인할 수 있다.
임대준 기자 ydj@aitimes.com
