Task: leveraging GANs to solve one-shot semantic part segmentation
Main components: i) starting from pre-training GANs, ii) manually annotating object parts for few generated images, iii) extracting pixel-wise representation from every layer of pre-trained generator, iv) training part-segmentation network with cross-entropy loss using annotated pairs of images and their corresponding masks, v) for test time, find latent code using gradient-based optimization, vi) feed it generator and segmenter to compute features and then segment the images, vii) train additional segmentation network (Unet) with the outputs of few-shot segmenter to bypass the latent optimization and better generalize to real-work scenarios.
Novelty: i) small networks, even a linear classifier, give plausible masks and competitive result to supervised counterpart on one-shot face segmentation, which indicates GANs indeed have readily discriminative pixel-wise representation, ii) a more efficient pipeline is introduced without latent optimization, which requires multiple forward-backward passes through the generator.
총평: real image 없이 전적으로 generator에 의존하여 few-shot segmentation을 푼 논문. 논문에서는 real image가 등장을 전혀 안하므로 일반적인 관념에 따라 real image로 학습한다고 생각하면 논문을 격하시키는 큰 오해를 불러 일으킬 수 있음. 그러나 제대로 이해하면 generator로 few shot sample을 만들고 part segmentation을 진행함으로써 generator의 representation이 아주 굉장함을 볼 수 있음. 실험에 쓰인 segmenter가 아주 작은 것 대비 성능이 아주 높은 점이 인상적임. 아쉬운 점이 있다면 GAN을 학습한 도메인에만 적용할 수 있고 generator의 feature에 대한 분석(어느 layer가 유용한지 불필요한지)을 볼 수 없는 점이었음.
Repurposing GANs for One-shot Semantic Part Segmentation 이 논문 다시 읽어보니 여기서의 few-shot은 generated images를 few-shot으로 annotate해서 학습한다는 거였습니다. 제가 few-shot은 real image로 주어지는 걸로 계속 생각하다보니 생성된 이미지에 대해 라벨링 하는 걸 계속 이상하게 여겨 오해를 한 것 같습니다. 또 테스크 자체에 대한 의심을 계속 한 것 같네요. 리뷰 정정하겠습니다. 민국씨가 지적에 감사합니다!