NeRF 모델의 경우 정확한 카메라 포스가 Annotation이 된 인풋 이미지가 충분히 많이 주어질 경우에 High Quality Image Generation이 가능합니다. 허나 NeRF 모델의 경우에 충분히 많은 이미지가 주어져 있지 않으면 학습하기 정말 쉽지 않다. 이에 이 논문에서는 더 적은 이미지와 NeRF의 빠른 optimization을 위하여 거의 Free로 얻을 수 있는 Depth Supervision Loss를 도입한다.
그렇다면 왜 Free인가? 일반적으로 NeRF 학습 데이터는 정확히 annotated 이미지 데이터가 필요하기 떄문에 SFM 모듈 (COLMAP)을 사용하여 정확한Camera Pose를 얻게된다. SFM 모듈은 이와 동시에 Depth Supervision에 사용할 수 있는 Sparse 3d points를 제공해 준다. 따라서 우리는 트레이닝 데이터 Generation시에 자동으로 거의 공짜로 얻게 되는 것이다. 이 때문에 Free 라고 부른다.
우리는 3d keypoint로 부터 camera 까지의 GT 거리를 Projection matrix로 구할 수 있게 되고, NeRF에서 Color를 rendering을 하는 것과 같은 방법으로 depth도 rendering하기 됩니다. 이 둘간의 L2로스로 Depth Supervision을 부가적으로 주게됩니다.
논문을 읽으면서, 왜 Depth Supervison이 Continuous Radiance Field 학습에 도움이 될까라는 부분이 납득이 가지 않았지만, 실험 결과 상으로는 상당한 향상이 있는 것으로 보입니다. 수식도 약간 이상한 부분이 있는 것 같아서.. 제가 잘못 이해한거 일 수도 있지만 윤우학생과 이야기 해보고 있습니다.