해피캠퍼스 토픽위키

1. VQGAN 모델 VQGAN은 VQ-VAE 구조를 따르며 CNN과 Transformer의 장점을 결합한 모델입니다. CNN으로 Locality를 잘 반영하는 codebook을 학습하고, Transformer의 풍부한 표현력으로 Image Synthesis를 이룹니다. VQGAN은 2-stage 모델로, 첫번째 stage에서 codebook을 학습하여 Transformer에 사용하기 위한 이미지의 구성요소를 학습하고, 두번째 stage에서 이러한 codebook을 바탕으로 Transformer를 이용하여 이미지를 구성합니다. 2....