본문 바로가기

논문 리뷰

[3D Reconstruction] NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review 리뷰 (4)

728x90

 

 

 

Author: Jihwa Lee

Team: Autonomous Driving Team @ CAI Lab
Date: 2023/01/26

출처: https://arxiv.org/pdf/2210.00379v1.pdf


3.8 Applications

아래 많은 분야의 모델들 중 관심있는 분야인 Image Processing의 Labeling 부분만 살펴보겠다.

이미지 출처: https://arxiv.org/pdf/2210.00379v1.pdf

3.8.1 Urban -> pass

3.8.2 Human Body -> pass

3.8.3 Image Processing

  • Semantic-NeRF (March 2021)
    • novel view를 위한 semantic label을 생성할 수 있는 NeRF model이다.
    • 추가적인 indendent MLP를 추가하여 해결하였다. MLP의 input으로는 input position, density MLP features, produced point-wise semantic label  &s&를 입력받는다. 
    • semantic label은 volume rendering을 통해서 도출되고 학습은 categorical cross entropy loss를 이용하여 진행된다.
    • 이 방법을 통해 좋은 label resolution, label propagation을 얻어냈고  multi-view semantic fusion에 사용될 수 있다. 
    • 이와 비슷한 문제를 해결하고자 했던 모델로는 NeSF(November 2021), Fig-NeRF가 있다.

3.8.4 Surface Reconstruction -> pass

4. Discussion

4.1 Concerning Speed

Baseline NeRF models은 training과 inference speed가 느리다.

현재 speed를 개선한 많은 모델들이 있는데 3가지 main paradigm을 사용하고 있다.

  1. baked 모델 사용 (이미 학습된 NeRF model을 이용하여 evaluating만 하는 방법)
  2. color와 density MLP로부터 learned scene feature를 추출하여 추가적인 학습을 통해 voxel/spatial-tree feature를 학습
  3. volume rendering을 direct로 MLP를 사용하지 않은 voxel feature를 통해 함
  4. volume rendering 중에 empty space skipping이나 early ray termination을 하는 것 

하지만 위 방법들에는 아래와 같은 문제들이 있다.

  1.  model design을 변경하여 speed 문제를 해결하지 않았다.
  2. voxel이나 spatial tree를 base로한 scene feature로 인한 추가적인 메모리가 필요해서 기본 baseline NeRF에 비해 큰 메모리가 필요하다.

현재 가장 큰 가망성을 보여준 모델은 Instant-NGP이다.

  • Instant-NGP 
    • multi-resolution hashed positional encoding을 추가적으로 학습한 feature를 이용해 만들었다.
    • 이로 인해 작고 효율적인 MLP를 통해 더욱 정확한 장면을 표현할 수 있었다.
    • 물론 매우 빠른 속도를 보인다.
    • Instant-NGP에서 소개한 application으로는 image compression과 neural SDF scene representation이다.

필자들은 미래에 speed-based 방법은 main paradigm의 2번과 3번을 따라 매우 높은 임팩트있는 연구로 data structure이나 scene feature들을 학습하기 위한 추가적인 design을 향상시켰으면 한다.

 

4.2 Concerning Quality

quality를 높이기 위해 개발된 모델은 아래와 같다.

  • NeRF-W
    • 영향력 있는 이미지마다 transient latent code와 appearance code를 구현
    • 비슷한 모델로는 concurrent GRAF가 있다.
    • 이런 latent code는 NeRF모델이 이미지마다 light/coloration 의 변화를 조절할 수 있도록 하여 장면의 상황마다 작은 변화를 줄 수 있도록 한다.
  • mip-NeRF
    • NeRF 기반 중에서 이 모델이 가장 영향력이 컸다고 생각한다.
    • 이를 기반으로 발전한 모델이 Ref-NeRF이다.

Image Processing 부분에서만 생각하면 RawNeRF와 DeblurNeRF는 NERF 모델 중에서 denoising/deblurring에 아주 높은 성능을 보여주었다.

 

4.3 Concerning Pose Estimation and Sparse View

NeRF에서 기본적으로 pose를 예측하기 위해서는 COLMAP 패키지를 많이 사용하였다.

하지만 이 자체도 모델로 해결한 모델이 Nice-SLAMiMAP이다.

 

그리고 Sparse View/few shot NeRF는 2D/3D feature를 미리 학습된 CNN을 이용하여 multi-view image로 추출하여 사용한다.

우리는 이미 많은 모델들이 few shot(2-10 views)을 달성했다고 생각한다.

 

저자들은 sparse view방법과 속도가 빠른 방법을 합치는 것이 real-time NeRF를 moblie 기기에서 사용할 수 있는 key area일 것이라고 생각한다.

 

4.4 Concerning Applications

NeRF로 할 수 있는 것

  • novel view synthesis
  • 3D reconstruction of Urban environment, human avatars
  • 3D mesh 추출하는 것
  • denoising, deblurring, upsampling, compression, image editing

5 Conclusion

기존 모델에 비해 속도, 품질, training 할 때의 장면 요구량 등 많은 것을 향상시켜왔다.

그리고 다양한 Application들도 존재한다.

 

많은 비전 관련자들이 NeRF에 관심을 가지고 더욱 발전할 수 있었으면 한다.

앞으로의 연구도 기대하겠다.

 


이로써 첫 NeRF review paper를 마무리하였다. 

 

전반적으로 NeRF에 어떤 분야로 활용이 가능하고 어떤 다양한 모델들이 있는지를 이해하기에 좋았고,

기본 개념에 대해서는 아직 빈틈이 많은 것 같아 좀 더 공부해봐야할 것 같다.

 

다음에도 NeRF에 대한 내용으로 글을 작성할 것 같다.

반응형