해당 논문은 3D shape reconstruction과 관련된 논문으로 point cloud에서 각 point들의 occupancy를 predict하여 mesh를 reconstruct 하는 논문입니다.
3D shape에 대해 predict하는 많은 네트워크처럼 이 논문도 U-Net 구조를 사용합니다. 특이한 점은 2D(Plane Encoding, Plane Decoding)와 3D(Volume Encoding, Voulme Decoding) 모두를 사용하여 feature를 구하는데, 2D의 경우 plane으로 projection 시켜서 2D convolution을 적용하고, 3D의 경우 volumetric 3D convolution을 적용합니다. 나온 feature들을 마지막에 MLP를 통과하여 occupancy probability를 계산합니다. 계산된 occupancy probability를 이용하여 mesh를 reconstruct합니다. Convolution의 특성상 중간 값의 경우 feature를 측정할 수 없는데, 이 경우 interpolation을 이용해 구합니다. GT 값 {0, 1} 을 이용하여 point-wise prediction score를 측정하여 cross entropy loss로 학습을 진행합니다.
해당 논문을 읽고 느낀 점은 다음과 같습니다.
-
Fully-convolution model이기에 computational budget이 낮다는 점, end-to-end가 가능한 모델이라는 점이 이 논문이 높은 평가를 받는 이유라 생각합니다.
-
2D의 feature를 굳이 사용해야 했던 이유가 있는지 의문이 들었습니다.저의 생각에는 volumetric sliding window의 경우 voxel size에 cubic 하게 area가 증가하기 때문에, 더 넓은 영역을 커버하는 2D도 같이 사용한 것이 성능을 개선하는 데에 도움이 되지 않았나 생각합니다.
-
Model이 fully-convolution하기에 scene-level inference도 가능하다는 장점이 있습니다. 실제 evaluation을 꽤나 큰 scene에서 진행하였습니다.
-
Multiple-plane을 사용해서 성능을 강화한 점은 흥미로웠습니다. 2D projection을 단순히 ground 기준 projection이 loss가 많을 것이라는 점을 여러 plane으로 projection을 시켜 이 문제를 해결한 것 같습니다..