Main Contiribution : Present a method for estimating neural scene representation of objects given only a single image.
Method : 우선 네트워크는 크게 Shape Network G와 Appearance Network F로 이루어져 있음. Shape Network G는 shape latent code theta와 voxel V를 매핑 시켜주는 역할을 한다(결국 3D reconstruction, Synthetic Data인 ShapeNet을 사용하여 training하기 때문에 가능). Appearance network F는 Appearance code phi와 Occupancy alpha를 추가적인 input으로 받는 NeRF로 보면 된다(Conditional Radiance Field). Network F에서는 복구한 Voxel을 통해서 주어진 이미지에서 Annotation된 Camera Parameter에서 보는 Ray가 지나가는 Occupancy를 알 수 있기 때문에 이를 추가적인 input으로 NeRF에 줄 수 있음. 따라서 최종적으로 로스는 3D voxel recon loss와 NeRF와 같은 rendered 된 이미지와의 GT이미지 사이에서 reconloss를 주면 된다.
inference time에서는 two step optimization을 통해서 shape code와 appearance code를 알아내고 network를 파라미터를 fine-tuning하는 과정을 통해서 test time optimization을 한 이후에 원하는 novel view를 Generation함.
pixelNeRF image 1장을 input으로 받았을 때와 비교해보았을때 on par with한 성능을 보임. Real data실험에서는 훨씬 더 pixelNeRF보다 좋은 성능을 보였는데, 이 실험의 경우 pixelNeRF의 경우 의자가 뒤틀린 결과를 보이는데 ShaRF는 symmetric loss를 voxel recon할 때 주기 때문에 좋은 성능을 보인 것으로 보임.
추가로 fine-tuning에 걸리는 시간이 측정된 실험이 있었으면 좋겠음.
Limitation : 1. 3D supervised. 2. 3D recon을 하기 때문에 기존 NeRF 보다 더 많은 inference time이 걸릴 것으로 보임.