사진 한 장으로 3D 입체영상 뚝닥! GRF를 아시나요?

일반 사진에서 픽셀 정보 추출해 광선 필드로 계산해내는 GRF
기존 컴퓨터 그래픽 구현 시스템보다 실제적이고 정교해
英옥스포드대 & 홍콩폴리텍 출신 연구원 2명이 3D 렌더링 논문 공개

GRF(General Radiance Field) 신경 함수는 2D 이미지를 3D 영상으로 생성하는 인공 신경 네트워크. 입력 이미지를 관찰해 3D 장면 표현을 배우고, 관찰되지 않은 관점(사각지대)에서 그 장면의 모양과 외관을 구성한다. 주목할 부분은 GRF가 아래 사진처럼 빛의 세기, 반사까지 실제적으로 구현한다는 것이다.

GRF: Learning a General Radiance Field for 3D Scene Representation and Rendering 논문의 공동 저자는 英옥스포드의 알렉스 트레비틱(Alex Trevithink)와 홍콩 폴리텍의 보 양(Bo Yang).

두 저자는 "2D 입력시 임의로 복잡한 3D 장면을 단일 네트워크로 표현하고 렌더링할 수 있는 단순하면서도 강력한 암묵적 신경 함수를 소개한다"며 기존 3D 생성 신경 네트워크와 차이점들을 소개했다. 트레비틱씨와 양씨에 따르면 ▷GRF는 3D 그래픽 생성 시스템에 비해 매끄럽고 연속적인 표면으로 3D 장면 구조를 나타낸다 ▷ 훈련용 3D 데이터 없이도 지속적인 3D 표현을 학습한다(예: 사진1) ▷ GRF는 SDF, SRNs, NeRF 등에 비해 임의적으로 복잡한 3D 장면을 나타낼 수 있으며, 새로운 시나리오도 빨리 습득한다.

GRF 모델이 입력된 2D 이미지 세트에서 3D 영상을 구성하기 위한 단계는 크게 4가지.

1. 일반 특징 추출해 2D 픽셀 구성

2. 2D 특징을 3D 공간에 재구성

3. 선택된 각 3D 점(포인트)으로부터 일반 특징 추출

4. 3D 영상 렌더링

시작 단계에서는 입력 이미지의 각 픽셀 정보(특징)을 추출하여 각 광선 범위와 기하학적 패턴을 학습하는 것이 목적이다. 픽셀은 해당 이미지의 특정 지점을 설명하는 단위. 기초적인 접근 방법은 픽셀 값으로 원시 RGB값 사용하는 것이다. 단, RGB는 조명, 조명 조건, 주변 소음 등에 민감하기 때문에 이 방식은 차선책으로 선택된다.

해당 논문은 픽셀마다 존재하는 패턴을 학습하기 위해 2 가지 기능을 가진 인코더-디코더 기반 합성곱 신경망(CNN)을 사용한다.

첫 번째 기능은 원시 RGB 영상을 해당 영상을 각 픽셀에 직접 쌓는 것. 따라서 CNN 모듈에 공급할 필요가 없다. 이를 통해 학습된 픽셀 형상이 3D 장면 공간에서 상대적 위치를 인식할 수 있다. 두 번째는 인코더와 디코더 사이의 스킵 연결을 사용하여 각 픽셀에 대해 고주파 로컬 피쳐를 보존하는 것. 이어 사용자 선택에 따라 CNN 모듈 중간에 완전히 연결된(fully connected, fc) 층 두 개를 통합하여 글로벌 특징(feature)을 학습한다. 계층적 특성의 혼합은 일반적이고 대표적인 경향이 있어 실제 구동 네트워크 보조를 효과적으로 해낸다.

시작 단계에서 추출된 픽셀 형상은 카메라 센터에서 3D 장면 표면까지 방출되는 광선 정보. 이에 두 번째 단계에서는 특징 추출된 픽셀 형상을 광선을 따라 3D 공간에 재구성한다. 이 단계에서 픽셀 형상은 3D 공간에서 광선을 따라 모든 위치를 나타내는 것으로 간주된다. 이론적으로 모든 3D 점은 각 2D 이미지에 해당하는 2D 픽셀 기능의 복사본을 가질 수 있는 것. 사용된 함수에 대한 자세한 설명은 논문에서 확인할 수 있다.

다음 단계에서 주의 집계 방법(Attention aggregation process)을 사용하여 선택된 모든 3D 쿼리 포인트 p와 p값의 고유 특징 벡터값을 얻는다. 주의 집계 방법은 모든 입력 특징에 대해 고유한 가중치를 학습한 다음 이를 합치는 것. p의 고유 벡터값으로 처음 입력 이미지에서 픽셀 추출시 얻은 패턴 특징 정보를 보존하고 3D 공간에서 각 p의 상대적 거리를 파악할 수 있다. 이로써 3D 공간의 각 지점(p)가 형상을 가질 수 있게 된다.

마지막 단계인 랜더링 과정에서 모든 3D 지점에서 멀티뷰(Multi-view)의 일관성을 유지하고 RGB 모델 구현을 진행한다. 이때 p의 고유 특징 벡터를 사용해 3D 공간의 밀도(dp)와 p에 해당하는 RGB값을 추론한다. 새로운 2D 이미지는 많은 광선을 쿼리함으로써 GRF로부터 직접 합성되는 것. 따라서 전체 네트워크는 3D 정보 없이 포즈화된 2D 영상 세트만을 통해서 훈련할 수 있다.

[AI & Tech] GPT3 능가하는 자연어 모델 훈련 알고리즘 등장

[AI & Tech] 내가 디즈니 주인공? 전이학습 GAN으로 해결

[AI & Tech] 인공지능 GPT-f가 생성한 수학 증명, 공식 수학커뮤니티에서 채택