Task : Place recognition
Motivation : Outdoor scene에서 lidar data의 sparsity때문에 정확한 structure를 파악하기 힘들다. Image 정보를 이용할 경우에는 날씨와 밝기에 대해 취약하다. 따라서 두 data를 상호보완적으로 이용해서 좋은 global descriptor를 만들어 lage scale outdoor scene에서 place recognition 성능을 높여보고자 함.
Method : Image는 ResNet, Point Cloud는 PointNet or LPD-Net을 feature extraction network로 사용하여 local features를 뽑는다. 두 local feature를 기존의 NetVLAD(local feature aggregation network)에 spatial attention을 추가한 AttVLAD를 제시하면서 각각 Global descriptor 두개를 만든다. 그 후 각각의 Global descriptor에 fc로 이루어진 channel attention을 통과시킨 후 두 output을 concat하고 마지막으로 global channel attention(마찬가지로 fc) 을 통해 최종적으로 Global descriptor를 만들어낸다.
총평 : local descriptor를 만드는 모듈도 기존의 것들을 가져오고 aggregation network역시 주로 이용되는 NetVLAD를 이용하고 있어 network상에서 특별한 novelty가 없다. 단지 네트워크 사이사이에 attention module을 적절히 넣고 오직 Oxford robotcar dataset에 오버피팅시켰다는 느낌이 많이 들었다. 다른 dataset에 generalizability test도 하지 않았기 때문에 단지 image, pcd 두 data를 hybrid로 이용해서 localization task를 하는 전형적인 파이프라인으로 읽어보기에만 의의가 있는 것 같다.