Skip to content

Files

Latest commit

 

History

History
13 lines (9 loc) · 1.38 KB

File metadata and controls

13 lines (9 loc) · 1.38 KB

ViTGAN: Training GANs with Vision Transformers

Author Information

Summarized by Minguk Kang

해당 논문은 Google Brain에서 나왔으며, ViT 와 Implicit Neural Representation을 조합하여 Generator를 디자인 했으며, 지금까지 나온 Transformer 기반 GAN 중에 가장 높은 성능을 보여주고 있는 모델인 것 같습니다.
 
조금 더 구체적으로 ViTGAN의 generator는 latent variable z가 mapping network f에 의해 style vector w로 변환되며 이를 self-modulation과 혼합하여 self-attention해줍니다. 이러한 아이디어는 StyleGAN에서 영향받았으며, 최종적으로 Fourier embedding 을 하여 페치 벡터를 만들고 reshape를 해주게 됩니다. 이러한 구조는 이전의 TransGAN과는 달리 upsampling이 없으며 순수한 Transformer-based GAN이라 의미가 있는 것 같네요.
 
성능은 5만장의 이미지를 사용하여 측정하였으며, 기존의 DiffAugGAN을 이겼다하지만 DiffAugGAN이 1만장의 이미지를 사용하여 평가한 것을 생각하면 공평한 비교가 아니라는 것을 알 수 있습니다. 또한, Imagenet 실험 결과가 없기 때문에, 아직까지는 Transformer가 CNN-based GAN을 이겼다고 하기에는 시기상조가 아닌가 싶습니다. 
 
개인적으로 논문은 쉽게 잘 적혀있지만, limitation이 많은 논문이라고 생각이 되네요.