StarGAN v2: Diverse Image Synthesis for Multiple Domains
abstract

A good image-to-mage translation model should learn a mapping between different visual domains while satisfying the following properties:
좋은 이미지 대 이미지 변환 모델은 다음 속성을 충족하면서 서로 다른 시각적 도메인 간의 매핑을 학습해야합니다.
1) diversity of generated images and 2) scalability over multiple domains.
1) 생성 된 이미지의 다양성 및 2) 여러 도메인에 대한 확장성.
Existing methods address either of the issues, having limited diversity or multiple models for all domains.
기존 방법은 모든 도메인에 대해 다양성이 제한적이거나 여러 모델을 갖는 문제 중 하나를 해결합니다.
We propose StarGAN v2, a single framework that tackles both and shows significantly improved results over the baselines.
우리는 두 가지를 모두 처리하고 기준선에 비해 현저하게 개선 된 결과를 보여주는 단일 프레임 워크 인 StarGAN v2를 제안합니다.
Experiments on CelebAHQ and a new animal faces dataset (AFHQ) validate our superiority in terms of visual quality, diversity, and scalability.
CelebAHQ 및 새로운 동물 얼굴 데이터 세트 (AFHQ)에 대한 실험은 시각적 품질, 다양성 및 확장 성 측면에서 우리의 우수성을 입증합니다.
To better assess image-to-image translation models, we release AFHQ, high-quality animal faces with large interand intra-domain differences.
이미지 대 이미지 변환 모델을 더 잘 평가하기 위해 도메인 간 및 도메인 내 차이가 큰 고품질 동물 얼굴 인 AFHQ를 출시합니다.
The code, pretrained models, and dataset are available at clovaai/stargan-v2.
코드, 사전 훈련 된 모델 및 데이터 세트는 clovaai / stargan-v2에서 사용할 수 있습니다.
1. Introduction
Image-to-image translation aims to learn a mapping between different visual domains [20].
이미지 대 이미지 번역은 서로 다른 시각적 영역 간의 매핑을 학습하는 것을 목표로합니다 [20].
Here, domain implies a set of images that can be grouped as a visually distinctive category, and each image has a unique appearance, which we call style.
여기서 도메인은 시각적으로 구별되는 카테고리로 그룹화 할 수있는 이미지 세트를 의미하며 각 이미지는 고유 한 모양을 가지고 있으며이를 스타일이라고합니다.
For example, we can set image domains based on the gender of a person, in which case the style includes makeup, beard, and hairstyle (top half of Figure 1).
예를 들어 사람의 성별에 따라 이미지 도메인을 설정할 수 있습니다.이 경우 스타일에는 메이크업, 수염 및 헤어 스타일이 포함됩니다 (그림 1의 상단 절반).
An ideal image-to-image translation method should be able to synthesize images considering the diverse styles in each domain.
이상적인 이미지 대 이미지 번역 방법은 각 영역의 다양한 스타일을 고려하여 이미지를 합성 할 수 있어야합니다.
However, designing and learning such models become complicated as there can be arbitrarily large number of styles and domains in the dataset.
그러나 데이터 세트에 임의로 많은 수의 스타일과 도메인이있을 수 있으므로 이러한 모델을 설계하고 학습하는 것은 복잡해집니다.
To address the style diversity, much work on image-toimage translation has been developed [1, 16, 34, 28, 38, 54].
스타일 다양성을 해결하기 위해 이미지 대 이미지 번역에 대한 많은 작업이 개발되었습니다 [1, 16, 34, 28, 38, 54].
These methods inject a low-dimensional latent code to the generator, which can be randomly sampled from the standard Gaussian distribution.
이러한 방법은 표준 가우스 분포에서 무작위로 샘플링 할 수있는 저 차원 잠복 코드를 생성기에 주입합니다.
Their domain-specific decoders interpret the latent codes as recipes for various styles when generating images.
도메인 별 디코더는 이미지를 생성 할 때 잠재 코드를 다양한 스타일의 레시피로 해석합니다.
However, because these methods have only considered a mapping between two domains, they are not scalable to the increasing number of domains.
그러나 이러한 방법은 두 도메인 간의 매핑 만 고려했기 때문에 증가하는 도메인 수에 맞게 확장 할 수 없습니다.
For example, having K domains, these methods require to train K(K-1) generators to handle translations between each and every domain, limiting their practical usage.
예를 들어, K 도메인이있는 이러한 방법은 K (K-1) 생성기를 훈련하여 각 도메인과 모든 도메인 간의 번역을 처리해야하므로 실제 사용이 제한됩니다.
To address the scalability, several studies have proposed a unified framework [2, 7, 17, 30]. StarGAN [7] is one of the earliest models, which learns the mappings between all available domains using a single generator.
확장 성을 해결하기 위해 여러 연구에서 통합 프레임 워크를 제안했습니다 [2, 7, 17, 30]. StarGAN [7]은 단일 생성기를 사용하여 사용 가능한 모든 도메인 간의 매핑을 학습하는 초기 모델 중 하나입니다.
The generator takes a domain label as an additional input, and learns to transform an image into the corresponding domain.
생성기는 도메인 레이블을 추가 입력으로 사용하고 이미지를 해당 도메인으로 변환하는 방법을 학습합니다.
However, StarGAN still learns a deterministic mapping per each domain, which does not capture the multi-modal nature of the data distribution.
그러나 StarGAN은 여전히 각 도메인에 대한 결정 론적 매핑을 학습하므로 데이터 배포의 다중 모달 특성을 캡처하지 않습니다.
This limitation comes from the fact that each domain is indicated by a predetermined label.
이 제한은 각 도메인이 미리 결정된 레이블로 표시된다는 사실에서 비롯됩니다.
Note that the generator receives a fixed label (e.g. one-hot vector) as input, and thus it inevitably produces the same output per each domain, given a source image.
생성기는 고정 레이블 (예 : 원-핫 벡터)을 입력으로 수신하므로 소스 이미지가 주어지면 필연적으로 각 도메인마다 동일한 출력을 생성합니다.
To get the best of both worlds, we propose StarGAN v2, a scalable approach that can generate diverse images across multiple domains.
두 세계를 최대한 활용하기 위해 여러 도메인에서 다양한 이미지를 생성 할 수있는 확장 가능한 접근 방식 인 StarGAN v2를 제안합니다.
In particular, we start from StarGAN and replace its domain label with our proposed domainspecific style code that can represent diverse styles of a specific domain.
특히 StarGAN에서 시작하여 특정 도메인의 다양한 스타일을 나타낼 수있는 제안 된 도메인 별 스타일 코드로 해당 도메인 레이블을 대체합니다.
To this end, we introduce two modules, a mapping network and a style encoder.
이를 위해 매핑 네트워크와 스타일 인코더의 두 가지 모듈을 소개합니다.
The mapping network learns to transform random Gaussian noise into a style code, while the encoder learns to extract the style code from a given reference image.
매핑 네트워크는 임의의 가우스 노이즈를 스타일 코드로 변환하는 방법을 배우고 인코더는 주어진 참조 이미지에서 스타일 코드를 추출하는 방법을 배웁니다.
Considering multiple domains, both modules have multiple output branches, each of which provides style codes for a specific domain.
여러 도메인을 고려할 때 두 모듈에는 각각 특정 도메인에 대한 스타일 코드를 제공하는 여러 출력 분기가 있습니다.
Finally, utilizing these style codes, our generator learns to successfully synthesize diverse images over multiple domains (Figure 1).
마지막으로 이러한 스타일 코드를 활용하여 생성기는 여러 도메인에서 다양한 이미지를 성공적으로 합성하는 방법을 학습합니다 (그림 1).
We first investigate the effect of individual components of StarGAN v2 and show that our model indeed benefits from using the style code (Section 3.1).
먼저 StarGAN v2의 개별 구성 요소의 효과를 조사하고 우리 모델이 스타일 코드를 사용하여 실제로 이점을 얻는다는 것을 보여줍니다 (섹션 3.1).
We empirically demonstrate that our proposed method is scalable to multiple domains and gives significantly better results in terms of visual quality and diversity compared to the leading methods (Section 3.2).
우리는 제안 된 방법이 여러 영역으로 확장 가능하며 주요 방법 (3.2 절)에 비해 시각적 품질 및 다양성 측면에서 훨씬 더 나은 결과를 제공한다는 것을 경험적으로 보여줍니다.
Last but not least, we present a new dataset of animal faces (AFHQ) with high quality and wide variations (Appendix A) to better evaluate the performance of image-to-image translation models on large inter- and intra-domain differences.
마지막으로, 우리는 큰 도메인 간 및 도메인 내 차이에 대한 이미지 대 이미지 변환 모델의 성능을 더 잘 평가하기 위해 고품질 및 다양한 변형 (부록 A)이있는 새로운 동물 얼굴 데이터 세트 (AFHQ)를 제시합니다.
We release this dataset publicly available for research community.
연구 커뮤니티에서 공개적으로 사용할 수있는이 데이터 세트를 출시합니다.
In this section, we describe our proposed framework and its training objective functions.
이 섹션에서는 제안 된 프레임 워크와 교육 목표 기능에 대해 설명합니다.
2. StarGAN v2
2.1 Propsed framework
Let X and Y be the sets of images and possible domains, respectively.
X와 Y를 각각 이미지 세트와 가능한 도메인으로 설정합니다.
Given an image x ∈ X and an arbitrary domain y ∈ Y, our goal is to train a single generator G that can generate diverse images of each domain y that corresponds to the image x.
이미지 x ∈ X 및 임의 도메인 y ∈ Y가 주어지면 우리의 목표는 이미지 x에 해당하는 각 도메인 y의 다양한 이미지를 생성 할 수있는 단일 생성기 G를 훈련하는 것입니다.
We generate domain-specific style vectors in the learned style space of each domain and train G to reflect the style vectors.
각 도메인의 학습 된 스타일 공간에서 도메인 별 스타일 벡터를 생성하고 스타일 벡터를 반영하도록 G를 훈련시킵니다.
Figure 2 illustrates an overview of our framework, which consists of four modules described below.
그림 2는 아래에 설명 된 4 개의 모듈로 구성된 프레임 워크의 개요를 보여줍니다
✅Generator
Our generator G translates an input image x into an output image G(x, s) reflecting a domainspecific style code s, which is provided either by the mapping network F or by the style encoder E.
생성기 G는 입력 이미지 x를 매핑 네트워크 F 또는 스타일 인코더 E에 의해 제공되는 도메인 별 스타일 코드 s를 반영하는 출력 이미지 G (x, s)로 변환합니다.
We use adaptive instance normalization (AdaIN) [15, 22] to inject s into G.
적응형 인스턴스 정규화 (AdaIN)를 사용합니다. 15, 22] s를 G에 주입합니다.
We observe that s is designed to represent a style of a specific domain y, which removes the necessity of providing y to G and allows G to synthesize images of all domains.
우리는 s가 특정 도메인 y의 스타일을 나타내도록 설계되었으므로 y를 G에 제공 할 필요가없고 G가 모든 도메인의 이미지를 합성 할 수 있습니다.
✅Mapping network
Given a latent code z and a domain y, our mapping network F generates a style code s = Fy(z), where Fy(·) denotes an output of F corresponding to the domain y.
네트워크 매핑 (그림 2b). 잠복 코드 z와 도메인 y가 주어지면 매핑 네트워크 F는 스타일 코드 s = Fy (z)를 생성합니다.
F consists of an MLP with multiple output branches to provide style codes for all available domains.
여기서 Fy (·)는 도메인 y에 해당하는 F의 출력을 나타냅니다. F는 사용 가능한 모든 도메인에 스타일 코드를 제공하기 위해 여러 출력 분기가있는 MLP
F can produce diverse style codes by sampling the latent vector z ∈ Z and the domain y ∈ Y randomly.
F는 잠재 벡터 z ∈ Z와 도메인 y ∈ Y를 무작위로 샘플링하여 다양한 스타일 코드를 생성 할 수 있습니다.
Our multi-task architecture allows F to efficiently and effectively learn style representations of all domains.
멀티 태스킹 아키텍처를 통해 F는 모든 도메인의 스타일 표현을 효율적이고 효과적으로 학습 할 수 있습니다.
Style encoder (Figure 2c). Given an image x and its corresponding domain y, our encoder E extracts the style code s = Ey(x) of x.
✅Style encoder
이미지 x와 해당 도메인 y가 주어지면 인코더 E는 x의 스타일 코드 s = Ey (x)를 추출합니다.
Here, Ey(·) denotes the output of E corresponding to the domain y. Similar to F, our style encoder E benefits from the multi-task learning setup.
여기서 Ey (·)는 도메인 y에 해당하는 E의 출력을 나타냅니다. F와 유사하게, 우리의 스타일 인코더 E는 다중 작업 학습 설정의 이점을 얻습니다.
E can produce diverse style codes using different reference images.
E는 서로 다른 참조 이미지를 사용하여 다양한 스타일 코드를 생성 할 수 있습니다.
This allows G to synthesize an output image reflecting the style s of a reference image x.
Discriminator (Figure 2d). Our discriminator D is a multitask discriminator [30, 35], which consists of multiple output branches.
✅Discriminator
우리의 판별 기 D는 다중 출력 분기로 구성된 다중 작업 판별 기 [30, 35]입니다.
Each branch Dy learns a binary classification determining whether an image x is a real image of its domain y or a fake image G(x, s) produced by G.
각 분기 Dy는 이미지 x가 도메인 y의 실제 이미지인지 아니면 G가 생성 한 가짜 이미지 G (x, s)인지를 결정하는 이진 분류를 학습합니다.

2.2 Training objectives
Given an image x ∈ X and its original domain y ∈ Y, we train our framework using the following objectives.
이미지 x ∈ X 및 원래 도메인 y ∈ Y가 주어지면 다음 목표를 사용하여 프레임 워크를 훈련합니다.
Adversarial objective.
During training, we sample a latentcode z ∈ Z and a target domain ye ∈ Y randomly, and generate a target style code es = Fye(z).
훈련 중에 우리는 잠재 코드 z ∈ Z 및 대상 도메인 ye ∈ Y를 무작위로 샘플링하고 대상 스타일 코드 es = Fye (z)를 생성합니다.
The generator G takes an image x and es as inputs and learns to generate an output image G(x,es) via an adversarial loss (1) where Dy(·) denotes the output of D corresponding to the domain y.
생성기 G는 이미지 x와 es를 입력으로 취하고 적대 손실 (1)을 통해 출력 이미지 G (x, es)를 생성하는 방법을 학습합니다. 여기서 Dy (·)는 도메인 y에 해당하는 D의 출력을 나타냅니다.
The mapping network F learns to provide the style code es that is likely in the target domain ye, and G learns to utilize es and generate an image G(x,es) that is indistinguishable from real images of the domain ye.
매핑 네트워크 F는 대상 도메인 ye에있을 가능성이있는 스타일 코드 es를 제공하는 방법을 배우고, G는 es를 활용하여 도메인 ye의 실제 이미지와 구별 할 수없는 이미지 G (x, es)를 생성하는 방법을 배웁니다.
✅Style reconstruction. 스타일 재건.
In order to enforce the generator G to utilize the style code es when generating the image G(x,es), we employ a style reconstruction loss (2).
생성기 G가 이미지 G (x, es)를 생성 할 때 스타일 코드 es를 사용하도록 강제하기 위해 스타일 재구성 손실 (2)을 사용합니다.
This objective is similar to the previous approaches [16, 54], which employ multiple encoders to learn a mapping from an image to its latent code.
이 목표는 이미지에서 잠복 코드로의 매핑을 학습하기 위해 여러 인코더를 사용하는 이전 접근법 [16, 54]과 유사합니다.
The notable difference is that we train a single encoder E to encourage diverse outputs for multiple domains.
주목할만한 차이점은 단일 인코더 E를 훈련시켜 여러 도메인에 대한 다양한 출력을 장려한다는 것입니다.
At test time, our learned encoder E allows G to transform an input image, reflecting the style of a reference image.
테스트 시간에 학습 된 인코더 E를 통해 G는 참조 이미지의 스타일을 반영하여 입력 이미지를 변환 할 수 있습니다.
✅Preserving source characteristics. 소스 특성 보존.
To guarantee that the generated image G(x,es) properly preserves the domaininvariant characteristics (e.g. pose) of its input image x, we employ the cycle consistency loss [7, 24, 53](4) image x, and y is the original domain of x.
생성 된 이미지 G (x, es)가 입력 이미지 x의 도메인 불변 특성 (예 : 포즈)을 적절하게 보존하도록 보장하기 위해주기 일관성 손실 [7, 24, 53] (4) 이미지 x를 사용하고 y는 x의 원래 도메인.
By encouraging the generator G to reconstruct the input image x with the estimated style code ˆs, G learns to preserve the original characteristics of x while changing its style faithfully.
생성기 G가 추정 된 스타일 코드 ˆs로 입력 이미지 x를 재구성하도록 장려함으로써 G는 x의 원래 특성을 유지하면서 스타일을 충실하게 변경하는 방법을 배웁니다.
✅Full objective. 전체 목적 함수
Our full objective functions can be summarized as follows: (5) where λsty, λds, and λcyc are hyperparameters for each term.
전체 목적 함수는 다음과 같이 요약 할 수 있습니다. (5) 여기서 λsty, λds 및 λcyc는 각 항에 대한 하이퍼 파라미터입니다.
We also further train our model in the same manner as the above objective, using reference images instead of latent vectors when generating style codes.
또한 스타일 코드를 생성 할 때 잠재 벡터 대신 참조 이미지를 사용하여 위의 목표와 동일한 방식으로 모델을 훈련합니다.
We provide the training details in Appendix B.
부록 B에서 교육 세부 정보를 제공합니다.

3. Experiement 3. 실험
In this section, we describe evaluation setups and conduct a set of experiments.
이 섹션에서는 평가 설정을 설명하고 일련의 실험을 수행합니다.
We analyze the individual components of StarGAN v2 (Section 3.1) and compare our model with three leading baselines on diverse image synthesis (Section 3.2).
StarGAN v2 (섹션 3.1)의 개별 구성 요소를 분석하고 다양한 이미지 합성에 대한 세 가지 주요 기준 (섹션 3.2)과 모델을 비교합니다.
All experiments are conducted using unseen images during the training phase.
모든 실험은 훈련 단계에서 보이지 않는 이미지를 사용하여 수행됩니다.
✅Baselines. 기준.
We use MUNIT [16], DRIT [28], and MSGAN [34] as our baselines, all of which learn multi-modal mappings between two domains.
우리는 MUNIT [16], DRIT [28], MSGAN [34]을 기준으로 사용하며, 모두 두 도메인 간의 다중 모달매핑을 학습합니다.
For multi-domain comparisons, we train these models multiple times for every pair of image domains.
다중 도메인 비교를 위해 모든 이미지 도메인 쌍에 대해 이러한 모델을 여러 번 훈련합니다.
We also compare our method with StarGAN [7], which learns mappings among multiple domains using a single generator.
또한 단일 생성기를 사용하여 여러 도메인 간의 매핑을 학습하는 StarGAN [7]과 방법을 비교합니다.
All the baselines are trained using the implementations provided by the authors.
모든 기준은 작성자가 제공 한 구현을 사용하여 훈련됩니다.
✅Datasets. 데이터 세트.

We evaluate StarGAN v2 on CelebA-HQ [21] and our new AFHQ dataset (Appendix A).
우리는 CelebA-HQ [21]와 새로운 AFHQ 데이터 셋 (부록 A)에서 StarGAN v2를 평가합니다.
We separate CelebAHQ into two domains of male and female, and AFHQ into three domains of cat, dog, and wildlife.
우리는 CelebAHQ를 남성과 여성의 두 영역으로 분리하고 AFHQ를 고양이, 개, 야생 동물의 세 영역으로 분리합니다.
Other than the domain labels, we do not use any additional information (e.g. facial attributes of CelebA-HQ or breeds of AFHQ) and let the models learn such information as styles without supervision.
도메인 레이블 외에는 추가 정보 (예 : CelebA-HQ의 얼굴 속성 또는 AFHQ 유형)를 사용하지 않으며 모델이 감독없이 스타일과 같은 정보를 학습하도록합니다.
For a fair comparison, all images are resized to 256 × 256 resolution for training, which is the highest resolution used in the baselines.
공정한 비교를 위해 모든 이미지의 크기는 훈련을 위해 256 × 256 해상도로 조정되며, 이는 기준선에서 사용되는 가장 높은 해상도입니다.
✅Evaluation metrics. 평가 지표.
We evaluate both the visual quality and the diversity of generated images using Frechét inception distance (FID) [14] and learned perceptual image patch similarity (LPIPS) [52].
우리는 Frechét 시작 거리 (FID) [14]와 학습 된 지각 이미지 패치 유사성 (LPIPS) [52]을 사용하여 생성 된 이미지의 시각적 품질과 다양성을 평가합니다.
We compute FID and LPIPS for every pair of image domains within a dataset and report their average values.
The details on evaluation metrics and protocols are further described in Appendix C.
평가 지표 및 프로토콜에 대한 자세한 내용은 부록 C에 설명되어 있습니다.
3.1 Analysis of individual component 3.1. 개별 구성 요소 분석

We evaluate individual components that are added to our baseline StarGAN using CelebA-HQ.
CelebA-HQ를 사용하여 기준 StarGAN에 추가 된 개별 구성 요소를 평가합니다.
Table 1 gives FID and LPIPS for several configurations, where each component is cumulatively added on top of StarGAN.
표 1은 여러 구성에 대한 FID 및 LPIPS를 제공하며 각 구성 요소는 StarGAN 위에 누적 적으로 추가됩니다.
An input image and the corresponding generated images of each configuration are shown in Figure 3.
입력 이미지와 각 구성의 해당 생성 이미지가 그림 3에 나와 있습니다.
The baseline configura- tion (A) corresponds to the basic setup of StarGAN, which employs WGAN-GP [11], ACGAN discriminator [39], and depth-wise concatenation [36] for providing the target domain information to the generator.
베이스 라인 구성 (A)은 WGAN-GP [11], ACGAN 판별 기 [39] 및 생성자에게 타겟 도메인 정보를 제공하기 위해 깊이 별 연결 [36]을 사용하는 StarGAN의 기본 설정에 해당합니다.
As shown in Figure 3a, the original StarGAN produces only a local change by applying makeup on the input image.
그림 3a에서 볼 수 있듯이 원래 StarGAN은 입력 이미지에 메이크업을 적용하여 로컬 변경 만 생성합니다.
We first improve our baseline by replacing the ACGAN discriminator with a multi-task discriminator [35, 30], allowing the generator to transform the global structure of an input image as shown in configuration (B). Exploiting the recent advances in GANs, we further enhance the training stability and construct a new baseline (C) by applying R1 regularization [35] and switching the depth-wise concatenation to adaptive instance normalization (AdaIN) [9, 15].
먼저 ACGAN 판별기를 다중 작업 판별기로 교체하여 기준선을 개선합니다 [35, 30].생성기가 구성 (B)에 표시된대로 입력 이미지의 전역 구조를 변환 할 수 있습니다.
최근 GAN의 발전을 활용하여 R1 정규화 [35]를 적용하고 깊이 별 연결을 적응 형 인스턴스 정규화 (AdaIN) [9, 15]로 전환하여 훈련 안정성을 더욱 강화하고 새로운 기준선 (C)을 구성합니다.
Note that we do not report LPIPS of these variations in Table 1, since they are yet to be designed to produce multiple outputs for a given input image and a target domain.
주어진 입력 이미지와 대상 도메인에 대해 여러 출력을 생성하도록 아직 설계되지 않았으므로 표 1에서 이러한 변형의 LPIPS를보고하지 않습니다.
To induce diversity, one can think of directly giving a latent code z into the generator G and impose the latent reconstruction loss ||z − E(G(x, z, y))||1[16, 54].
다양성을 유도하기 위해 잠재 코드 z를 생성기 G에 직접 제공하고 잠재 재구성 손실 || z − E (G (x, z, y)) || 1 [16, 54]를 부과 할 수 있습니다.
However, in a multi-domain scenario, we observe that this baseline (D) does not encourage the network to learn meaningful styles and fails to provide as much diversity as we expect. We conjecture that this is because latent codes have no capability in separating domains, and thus the latent reconstruction loss models domain-shared styles (e.g. color) rather than domain-specific ones (e.g. hairstyle).
그러나 다중 도메인 시나리오에서이 기준선 (D)은 네트워크가 의미있는 스타일을 학습하도록 장려하지 않으며 우리가 기대하는만큼의 다양성을 제공하지 못합니다. 우리는 잠재적 인 코드가 도메인을 분리 할 능력이 없기 때문에 잠재적 인 재구성 손실이 도메인 별 스타일 (예 : 헤어 스타일)이 아닌 도메인 공유 스타일 (예 : 색상)을 모델링하기 때문이라고 추측합니다.
Note that the FID gap between baseline (C) and (D) is simply due to the difference in the number of output samples.
기준선 (C)과 (D) 사이의 FID 간격은 단순히 출력 샘플 수의 차이 때문입니다.
Instead of giving a latent code into G directly, to learn meaningful styles, we transform a latent code z into a domain- specific style code s through our proposed mapping network (Figure 2b) and inject the style code into the generator (E). Here, we also introduce the style reconstruction loss (Eq. (2)).
의미있는 스타일을 배우기 위해 G에 직접 잠재 코드를 제공하는 대신 제안 된 매핑 네트워크 (그림 2b)를 통해 잠재 코드 z를 도메인 별 스타일 코드 s로 변환하고 스타일 코드를 생성기 (E)에 삽입합니다. 여기에서는 스타일 재구성 손실 (식 (2))도 소개합니다.
Note that each output branch of our mapping network is responsible to a particular domain, thus style codes have no ambiguity in separating domains.
매핑 네트워크의 각 출력 분기는 특정 도메인을 담당하므로 스타일 코드는 도메인을 구분할 때 모호하지 않습니다.
Unlike the latent reconstruction loss, the style reconstruction loss allows the generator to produce diverse images reflecting domain-specific styles.
잠재 복원 손실과 달리 스타일 복원 손실은 생성기가 도메인 별 스타일을 반영하는 다양한 이미지를 생성 할 수 있도록합니다.
Finally, we further improve the network to produce diverse outputs by adopting the diversity regularization (Eq. (3)), and this configuration (F) corresponds to our proposed method, StarGAN v2. Figure 4 shows that StarGAN v2 can synthesize images that reflect diverse styles of references including hairstyle, makeup, and beard, without hurting the source characteristics.
마지막으로 다이버 시티 정규화 (Eq. (3))를 채택하여 다양한 출력을 생성하도록 네트워크를 더욱 개선하고,이 구성 (F)은 제안 된 방법 인 StarGAN v2에 해당합니다. 그림 4는 StarGAN v2가 소스 특성을 손상시키지 않으면 서 헤어 스타일, 메이크업, 수염 등 다양한 스타일의 참조 스타일을 반영하는 이미지를 합성 할 수 있음을 보여줍니다.

3.2 Comparison on diverse image synthesis 3.2. 다양한 이미지 합성 비교

In this section, we evaluate StarGAN v2 on diverse image synthesis from two perspectives: latent-guided synthesis and reference-guided synthesis.
이 섹션에서는 잠재 유도 합성과 참조 유도 합성의 두 가지 관점에서 다양한 이미지 합성에 대한 StarGAN v2를 평가합니다.
✅Latent-guided synthesis.
잠재 유도 합성.
Figure 5 provides a qualitative comparison of the competing methods.
그림 5는 경쟁 방법의 질적 비교를 제공합니다.
Each method produces multiple outputs using random noise.
각 방법은 랜덤 노이즈를 사용하여 여러 출력을 생성합니다.
For CelebAHQ, we observe that our method synthesizes images with a higher visual quality compared to the baseline models.
CelebAHQ의 경우 우리의 방법이 기준 모델에 비해 더 높은 시각적 품질로 이미지를 합성하는 것을 관찰합니다.
In addition, our method is the only model that can successfully change the entire hair styles of the source images, which requires non-trivial effort (e.g. generating ears).
또한, 우리의 방법은 소스 이미지의 전체 헤어 스타일을 성공적으로 변경할 수있는 유일한 모델이므로 사소한 노력 (예 : 귀 생성)이 필요합니다.
For AFHQ, which has relatively large variations, the performance of the baselines is considerably degraded, while our method still produces images with high quality and diverse styles.
비교적 큰 변형이있는 AFHQ의 경우 기준선의 성능이 상당히 저하되는 반면, 우리의 방법은 여전히 고품질의 다양한 스타일로 이미지를 생성합니다.
As shown in Table 2, our method outperforms all the baselines by a large margin in terms of visual quality.
표 2에서 볼 수 있듯이 우리의 방법은 시각적 품질 측면에서 모든 기준선보다 큰 차이를 보입니다.
For both CelebA-HQ and AFHQ, our method achieves FIDs of 13.7 and 16.2, respectively, which are more than two times improvement over the previous leading method.
CelebA-HQ와 AFHQ 모두에 대해 우리의 방법은 각각 13.7과 16.2의 FID를 달성했으며, 이는 이전 선행 방법보다 두 배 이상 향상되었습니다.
Our LPIPS is also the highest in CelebA-HQ, which implies our model produces the most diverse results given a single input.
또한 LPIPS는 CelebA-HQ에서 가장 높으며, 이는 단일 입력으로 가장 다양한 결과를 생성하는 모델을 의미합니다.
We conjecture that the high LPIPS values of the baseline models in AFHQ are due to their spurious artifacts.
AFHQ에서 기준 모델의 높은 LPIPS 값은 가짜 아티팩트 때문이라고 추측합니다.

✅Reference-guided synthesis. 참조 유도 합성.

To obtain the style code from a reference image, we sample test images from a target domain and feed them to the encoder network of each method.
참조 이미지에서 스타일 코드를 얻기 위해 대상 도메인에서 테스트 이미지를 샘플링하여 각 방법의 인코더 네트워크에 제공합니다.
For CelebA-HQ (Figure 6a), our method successfully renders distinctive styles (e.g. bangs, beard, makeup, and hairstyle), while the others mostly match the color distribution of reference images.
CelebA-HQ (그림 6a)의 경우 우리의 방법은 독특한 스타일 (예 : 앞머리, 수염, 메이크업 및 헤어 스타일)을 성공적으로 렌더링하는 반면 다른 방법은 대부분 참조 이미지의 색상 분포와 일치합니다.
For the more challenging AFHQ (Figure 6b), the baseline models suffer from a large domain shift.
더 까다로운 AFHQ (그림 6b)의 경우 기준 모델은 큰 도메인 이동으로 어려움을 겪습니다.
They hardly reflect the style of each reference image and only match the domain. In contrast, our model renders distinctive styles (e.g. breeds) of each reference image as well as its fur pattern and eye color.
각 참조 이미지의 스타일을 거의 반영하지 않으며 도메인과 만 일치합니다. 대조적으로 우리 모델은 각 참조 이미지의 독특한 스타일 (예 : 품종)과 모피 패턴 및 눈 색깔을 렌더링합니다.
Note that StarGAN v2 produces high quality images across all domains and these results are from a single generator.
StarGAN v2는 모든 도메인에서 고품질 이미지를 생성하며 이러한 결과는 단일 생성기에서 나온 것입니다.
Since the other baselines are trained individually for each pair of domains, the output quality fluctuates across domains.
다른 기준선은 각 도메인 쌍에 대해 개별적으로 훈련되기 때문에 출력 품질은 도메인에 따라 변동됩니다.
For example, in AFHQ (Figure 6b), the baseline models work reasonably well in dog-to-wildlife (2nd row) while they fail in cat-todog (1st row).
예를 들어, AFHQ (그림 6b)에서 기준 모델은 개-야생 동물 (2 행)에서 합리적으로 잘 작동하지만 고양이-토그 (1 행)에서는 실패합니다.
Table 3 shows FID and LPIPS of each method for reference guided synthesis.
표 3은 참조 유도 합성을위한 각 방법의 FID 및 LPIPS를 보여줍니다.
For both datasets, our method achieves FID of 23.8, and 19.8, which are about 1.5× and 3.5× better than the previous leading method, respectively The LPIPS of StarGAN v2 is also the highest among the competitors, which implies that our model produces the most diverse results considering the styles of reference images.
두 데이터 세트 모두에서 우리의 방법은 23.8 및 19.8의 FID를 달성하여 이전의 주요 방법보다 각각 약 1.5 배 및 3.5 배 더 우수했습니다. StarGAN v2의 LPIPS도 경쟁사 중에서 가장 높으며 이는 우리 모델이 참조 이미지의 스타일을 고려하여 가장 다양한 결과를 얻을 수 있습니다.
Here, MUNIT and DRIT suffer from mode-collapse in AFHQ, which results in lower LPIPS and higher FID than other methods.
여기서 MUNIT 및 DRIT는 AFHQ에서 모드 붕괴로 인해 다른 방법보다 LPIPS가 낮고 FID가 높습니다.
✅Human evaluation.
We use the Amazon Mechanical Turk (AMT) to compare the user preferences of our method with baseline approaches.
Amazon Mechanical Turk (AMT)를 사용하여 방법의 사용자 선호도를 기준 접근 방식과 비교합니다.
Given a pair of source and reference images, the AMT workers are instructed to select one among four image candidates from the methods, whose order is randomly shuffled.
한 쌍의 소스 및 참조 이미지가 주어지면 AMT 작업자는 순서가 무작위로 섞인 방법에서 4 개의 이미지 후보 중 하나를 선택하도록 지시받습니다.
We ask separately which model offers the best image quality and which model best stylizes the input image considering the reference image.
참조 이미지를 고려하여 어떤 모델이 가장 좋은 이미지 품질을 제공하는지, 어떤 모델이 입력 이미지를 가장 잘 스타일 화하는지 별도로 질문합니다.
For each comparison, we randomly generate 100 questions, and each question is answered by 10 workers. We also ask each worker a few simple questions to detect unworthy workers.
각 비교에 대해 무작위로 100 개의 질문을 생성하고 각 질문에 10 명의 작업자가 답변합니다. 우리는 또한 각 근로자에게 몇 가지 간단한 질문을하여 가치없는 근로자를 찾아냅니다.
The number of total valid workers is 76. As shown in Table 4, our method obtains the majority of votes in all instances, especially in the challenging AFHQ dataset and the question about style reflection.
총 유효 작업자 수는 76 명입니다. 표 4에서 볼 수 있듯이 우리의 방법은 모든 경우, 특히 까다로운 AFHQ 데이터 세트와 스타일 반영에 대한 질문에서 대다수의 투표를 얻습니다.
These results show that StarGAN v2 better extracts and renders the styles onto the input image than the other baselines.
이 결과는 StarGAN v2가 다른 기준선보다 입력 이미지에 스타일을 더 잘 추출하고 렌더링한다는 것을 보여줍니다.

4. Discussion
We discuss several reasons why StarGAN v2 can successfully synthesize images of diverse styles over multiple domains.
StarGAN v2가 여러 도메인에 걸쳐 다양한 스타일의 이미지를 성공적으로 합성 할 수있는 몇 가지 이유를 논의합니다.
First, our style code is separately generated per domain by the multi-head mapping network and style encoder.
첫째, 스타일 코드는 다중 헤드 매핑 네트워크 및 스타일 인코더에 의해 도메인별로 별도로 생성됩니다.
By doing so, our generator can only focus on using the style code, whose domain-specific information is already taken care of by the mapping network (Section 3.1).
이렇게함으로써 생성기는 매핑 네트워크 (3.1 절)에서 도메인 별 정보를 이미 처리 한 스타일 코드 사용에만 집중할 수 있습니다.
Second, following the insight of StyleGAN [22], our style space is produced by learned transformations.
둘째, StyleGAN [22]의 통찰력에 따라 우리의 스타일 공간은 학습 된 변형에 의해 생성됩니다.
This provides more flexibility to our model than the baselines [16, 28, 34], which assume that the style space is a fixed Gaussian distribution (Section 3.2).
이는 스타일 공간이 고정 된 가우스 분포 (3.2 절)라고 가정하는 기준선 [16, 28, 34]보다 모델에 더 많은 유연성을 제공합니다.
Last but not least, our modules benefit from fully exploiting training data from multiple domains. By design, the shared part of each module should learn domain-invariant features which induces the regularization effect, encouraging better generalization to unseen samples.
마지막으로, 우리 모듈은 여러 도메인에서 훈련 데이터를 완전히 활용함으로써 이익을 얻습니다. 설계 상 각 모듈의 공유 부분은 정규화 효과를 유도하는 도메인 불변 기능을 학습하여 보이지 않는 샘플에 대해 더 나은 일반화를 장려해야합니다.
To show that our model generalizes over the unseen images, we test a few samples from FFHQ [22] with our model trained on CelebA-HQ (Figure 7).
모델이 보이지 않는 이미지에 대해 일반화된다는 것을 보여주기 위해 CelebA-HQ에서 훈련 된 모델을 사용하여 FFHQ [22]의 몇 가지 샘플을 테스트합니다 (그림 7).
Here, StarGAN v2 successfully captures styles of references and renders these styles correctly to the source images.
여기서 StarGAN v2는 참조 스타일을 성공적으로 캡처하고 이러한 스타일을 소스 이미지에 올바르게 렌더링합니다.
5. Related work

Generative adversarial networks (GANs) [10] have shown impressive results in many computer vision tasks such as image synthesis [4, 31, 8], colorization [18, 50] and super-resolution [27, 47].
GAN (Generative Adversarial Network) [10]은 이미지 합성 [4, 31, 8], 채색 [18, 50] 및 초 고해상도 [27, 47]와 같은 많은 컴퓨터 비전 작업에서 인상적인 결과를 보여주었습니다.
Along with improving the visual quality of generated images, their diversity also has been considered as an important objective which has been tackled by either devoted loss functions [34, 35] or architectural design [4, 22].
생성 된 이미지의 시각적 품질을 향상시키는 것과 함께 그 다양성은 헌신적 인 손실 기능 [34, 35] 또는 건축 설계 [4, 22]에 의해 해결 된 중요한 목표로 간주되었습니다.
StyleGAN [22] introduces a non-linear mapping function that embeds an input latent code into an intermediate style space to better represent the factors of variation.
StyleGAN [22]는 입력 잠재 코드를 중간 스타일 공간에 삽입하여 변동 요인을 더 잘 표현하는 비선형 매핑 기능을 도입했습니다.
However, this method requires non-trivial effort when transforming a real image, since its generator is not designed to take an image as input.
그러나이 방법은 생성기가 이미지를 입력으로 가져 오도록 설계되지 않았기 때문에 실제 이미지를 변환 할 때 별다른 노력이 필요하지 않습니다.
Early image-to-mage translation methods [20, 53, 29] are well known to learn a deterministic mapping even with stochastic noise inputs.
초기 이미지 대 이미지 변환 방법 [20, 53, 29]은 확률 적 노이즈 입력으로도 결정 론적 매핑을 학습하는 것으로 잘 알려져 있습니다.
Several methods reinforce the connection between stochastic noise and the generated image for diversity, by marginal matching [1], latent regression [54, 16], and diversity regularization [48, 34].
몇 가지 방법은 한계 매칭 [1], 잠재 회귀 [54, 16], 다이버 시티 정규화 [48, 34]를 통해 확률 적 노이즈와 다양성을 위해 생성 된 이미지 간의 연결을 강화합니다.
Other approaches produce various outputs with the guidance of reference images [5, 6, 32, 40].
다른 접근법은 참조 이미지의 안내와 함께 다양한 출력을 생성합니다 [5, 6, 32, 40].
However, all theses methods consider only two domains, and their extension to multiple domains is non-trivial.
그러나 이러한 모든 방법은 두 개의 도메인 만 고려하며 여러 도메인으로의 확장은 중요하지 않습니다.
Recently, FUNIT [30] tackles multi-domain image translation using a few reference images from a target domain, but it requires fine-grained class labels and can not generate images with random noise.
최근 FUNIT [30]는 대상 도메인에서 몇 개의 참조 이미지를 사용하여 다중 도메인 이미지 변환을 처리하지만 세분화 된 클래스 레이블이 필요하고 랜덤 노이즈가있는 이미지를 생성 할 수 없습니다.
Our method provides both latent-guided and reference-guided synthesis and can be trained with coarsely labeled dataset.
우리의 방법은 잠재 유도 및 참조 유도 합성을 모두 제공하며 대략적으로 레이블이 지정된 데이터 세트로 훈련 할 수 있습니다.
In parallel work, Yu et al. [51] tackle the same issue but they define the style as domain-shared characteristics rather than domain-specific ones, which limits the output diversity.
병렬 작업에서 Yu et al. [51] 같은 문제를 다루지 만 그들은 출력 다양성을 제한하는 도메인 특정 특성이 아닌 도메인 공유 특성으로 스타일을 정의합니다.
6. Conclusion
We proposed StarGAN v2, which addresses two major challenges in image-to-image translation; translating an image of one domain to diverse images of a target domain, and supporting multiple target domains.
우리는 이미지 대 이미지 번역의 두 가지 주요 과제를 해결하는 StarGAN v2를 제안했습니다. 한 도메인의 이미지를 대상 도메인의 다양한 이미지로 변환하고 여러 대상 도메인을 지원합니다.
The experimental results showed that our model can generate images with rich styles across multiple domains, remarkably outperforming the previous leading methods [16, 28, 34].
실험 결과는 우리 모델이 여러 도메인에 걸쳐 풍부한 스타일의 이미지를 생성 할 수 있다는 것을 보여 주며 이전의 주요 방법 [16, 28, 34]을 훨씬 능가합니다.
We also released a new dataset of animal faces (AFHQ) for evaluating methods in a large inter- and intra domain variation setting.
또한 대규모 도메인 간 및 도메인 내 변형 설정에서 방법을 평가하기위한 새로운 동물 얼굴 데이터 세트 (AFHQ)를 출시했습니다.

💜A.The AFHQ dataset
We release a new dataset of animal faces, Animal FacesHQ (AFHQ), consisting of 15,000 high-quality images at 512 × 512 resolution.
512 × 512 해상도에서 15,000 개의 고품질 이미지로 구성된 동물 얼굴의 새로운 데이터 세트 인 Animal FacesHQ (AFHQ)를 출시합니다.
Figure 8 shows example images of the AFHQ dataset.
그림 8은 AFHQ 데이터 세트의 예시 이미지를 보여줍니다.
The dataset includes three domains of cat, dog, and wildlife, each providing 5000 images.
데이터 세트에는 고양이, 개, 야생 동물의 세 가지 도메인이 포함되며 각각 5000 개의 이미지를 제공합니다.
By having multiple (three) domains and diverse images of various breeds (≥ eight) per each domain, AFHQ sets a more challenging image-to-image translation problem.
AFHQ는 각 도메인 당 여러 (3) 도메인과 다양한 품종 (≥ 8)의 다양한 이미지를 보유함으로써보다 까다로운 이미지 대 이미지 변환 문제를 설정합니다.
For each domain, we select 500 images as a test set and provide all remaining images as a training set.
각 도메인에 대해 500 개의 이미지를 테스트 세트로 선택하고 나머지 모든 이미지를 학습 세트로 제공합니다.
We collected images with permissive licenses from the Flickr1 and Pixabay2 websites.
Flickr1 및 Pixabay2 웹 사이트에서 허용 라이선스로 이미지를 수집했습니다.
All images are vertically and horizontally aligned to have the eyes at the center.
모든 이미지는 눈이 중앙에 오도록 수직 및 수평으로 정렬됩니다.
The low-quality images were discarded by human effort.
저품질 이미지는 인간의 노력으로 버려졌습니다.
We have made dataset available at github.com/clovaai/stargan-v2.
💜B.Training details
For fast training, the batch size is set to eight and the model is trained for 100K iterations.
빠른 학습을 위해 배치 크기는 8로 설정되고 모델은 100K 반복에 대해 학습됩니다.
The training time is about three days on a single Tesla V100 GPU with our implementation in PyTorch [41]. We set λsty = 1, λds = 1, and λcyc = 1 for CelebA-HQ and λsty = 1, λds = 2, and λcyc = 1 for AFHQ.
훈련 시간은 단일 Tesla V100 GPU에서 PyTorch [41]를 구현 한 경우 약 3 일입니다. CelebA-HQ의 경우 λsty = 1, λds = 1, λcyc = 1, AFHQ의 경우 λsty = 1, λds = 2, λcyc = 1로 설정합니다.
To stabilize the training, the weight λds is linearly decayed to zero over the 100K iterations.
훈련을 안정화하기 위해 가중치 λds는 100K 반복 동안 선형 적으로 0으로 감소합니다.
We adopt the non-saturating adversarial loss [10] with R1 regularization [35] using γ = 1.
γ = 1을 사용하는 R1 정규화 [35]와 함께 비 포화 적대 손실 [10]을 채택합니다.
We use the Adam [25] optimizer with β1 = 0 and β2 = 0.99. The learning rates for G, D, and E are set to 10−4 , while that of F is set to 10−6.
β1 = 0 및 β2 = 0.99 인 Adam [25] 최적화 프로그램을 사용합니다. G, D, E의 학습률은 10−4로 설정되고 F의 학습률은 10−6으로 설정됩니다.
For evaluation, we employ exponential moving averages over parameters [21, 49] of all modules except D.
평가를 위해 D를 제외한 모든 모듈의 매개 변수 [21, 49]에 대한 지수 이동 평균을 사용합니다.
We initialize the weights of all modules using He initialization [12] and set all biases to zero, except for the biases associated with the scaling vectors of AdaIN that are set to one.
He 초기화 [12]를 사용하여 모든 모듈의 가중치를 초기화하고 1로 설정된 AdaIN의 스케일링 벡터와 관련된 편향을 제외하고 모든 편향을 0으로 설정합니다.
💜C. Evaluation protocol
This section provides details for the evaluation metrics and evaluation protocols used in all experiments.
이 섹션에서는 모든 실험에 사용되는 평가 메트릭 및 평가 프로토콜에 대한 세부 정보를 제공합니다.
Frechét inception distance (FID) [14] measures the discrepancy between two sets of images.
FID (Frechét inception distance) [14]는 두 이미지 세트 간의 불일치를 측정합니다.
We use the feature vectors from the last average pooling layer of the ImageNetpretrained Inception-V3 [44].
ImageNetpretrained Inception-V3 [44]의 마지막 평균 풀링 레이어의 특징 벡터를 사용합니다.
For each test image from a source domain, we translate it into a target domain using 10 latent vectors, which are randomly sampled from the standard Gaussian distribution.
소스 도메인의 각 테스트 이미지에 대해 표준 가우스 분포에서 무작위로 샘플링 된 10 개의 잠복 벡터를 사용하여 대상 도메인으로 변환합니다.
We then calculate FID between the translated images and training images in the target domain.
그런 다음 번역 된 이미지와 대상 도메인의 학습 이미지 간의 FID를 계산합니다.
We calculate the FID values for every pair of image domains (e.g. female male for CelebA-HQ) and report the average value.
모든 이미지 도메인 쌍 (예 : CelebA-HQ의 여성 남성)에 대한 FID 값을 계산하고 평균 값을보고합니다.
Note that, for reference-guided synthesis, each source image is transformed using 10 reference images randomly sampled from the test set of a target domain.
참조 유도 합성의 경우 각 소스 이미지는 대상 도메인의 테스트 세트에서 무작위로 샘플링 된 10 개의 참조 이미지를 사용하여 변환됩니다.
Learned perceptual image patch similarity (LPIPS) [52] measures the diversity of generated images using the L1 distance between features extracted from the ImageNetpretrained AlexNet [26].
학습 된 지각 적 이미지 패치 유사성 (LPIPS) [52]은 ImageNet 사전 훈련 된 AlexNet [26]에서 추출 된 특징 간의 L1 거리를 사용하여 생성 된 이미지의 다양성을 측정합니다.
For each test image from a source domain, we generate 10 outputs of a target domain using 10 randomly sampled latent vectors.
소스 도메인의 각 테스트 이미지에 대해 무작위로 샘플링 된 잠재 벡터 10 개를 사용하여 대상 도메인의 출력 10 개를 생성합니다.
Then, we compute the average of the pairwise distances among all outputs generated from the same input (i.e. 45 pairs).
그런 다음 동일한 입력 (즉, 45 쌍)에서 생성 된 모든 출력 간의 쌍별 거리 평균을 계산합니다.
Finally, we report the average of the LPIPS values over all test images.
마지막으로 모든 테스트 이미지에 대한 LPIPS 값의 평균을보고합니다.
For reference-guided synthesis, each source image is transformed using 10 reference images to produce 10 outputs.
참조 안내 합성의 경우 각 소스 이미지는 10 개의 참조 이미지를 사용하여 변환되어 10 개의 출력을 생성합니다.
💜D.Additional results
We provide additional reference-guided image synthesis results on both CelebA-HQ and AFHQ (Figure 9 and 10).
CelebA-HQ 및 AFHQ 모두에 대한 추가 참조 안내 이미지 합성 결과를 제공합니다 (그림 9 및 10).
In CelebA-HQ, StarGAN v2 synthesizes the source identity in diverse appearances reflecting the reference styles such as hairstyle, and makeup.
CelebA-HQ에서 StarGAN v2는 헤어 스타일, 메이크업 등 레퍼런스 스타일을 반영하여 다양한 외모로 소스 아이덴티티를 종합합니다.
In AFHQ, the results follow the breed and hair of the reference images preserving the pose of the source images.AFHQ에서 결과는 소스 이미지의 포즈를 유지하면서 참조 이미지의 품종과 머리카락을 따릅니다.
Interpolation results between styles can be found at youtu.be/0EVh5Ki4dIY.

💜E. Network architecture
In this section, we provide architectural details of StarGAN v2, which consists of four modules described below.
이 섹션에서는 아래에 설명 된 4 개의 모듈로 구성된 StarGAN v2의 아키텍처 세부 정보를 제공합니다.
Generator (Table 5).

For AFHQ, our generator consists of four downsampling blocks, four intermediate blocks, and four upsampling blocks, all of which inherit preactivation residual units [13].
AFHQ의 경우 생성기는 4 개의 다운 샘플링 블록, 4 개의 중간 블록 및 4 개의 업 샘플링 블록으로 구성되며, 모두 사전 활성화 잔여 단위를 상속합니다 [13].
We use the instance normalization (IN) [45] and the adaptive instance normalization (AdaIN) [15, 22] for down-sampling and up-sampling blocks, respectively.
AFHQ의 경우 생성기는 4 개의 다운 샘플링 블록, 4 개의 중간 블록 및 4 개의 업 샘플링 블록으로 구성되며, 모두 사전 활성화 잔여 단위를 상속합니다 [13].
A style code is injected into all AdaIN layers, providing scaling and shifting vectors through learned affine transformations.
스타일 코드는 모든 AdaIN 레이어에 삽입되어 학습 된 아핀 변환을 통해 크기 조정 및 벡터 이동을 제공합니다.
For CelebA-HQ, we increase the number of downsampling and upsampling layers by one.
CelebA-HQ의 경우 다운 샘플링 및 업 샘플링 레이어의 수를 하나씩 늘립니다.
We also remove all shortcuts in the upsamplingresidual blocks and add skip connections with the adaptive wing based heatmap [46].
또한 upsamplingresidual 블록에서 모든 단축키를 제거하고 적응 형 날개 기반 히트 맵 [46]과 함께 스킵 연결을 추가합니다.
✅Mapping network (Table 6). 네트워크 매핑 (표 6).

Our mapping network consists of an MLP with K output branches, where K indicates the number of domains.
우리의 매핑 네트워크는 K 출력 분기가있는 MLP로 구성되며 여기서 K는 도메인 수를 나타냅니다.
Four fully connected layers are shared among all domains, followed by four specific fully connected layers for each domain.
4 개의 완전 연결 계층이 모든 도메인에서 공유되고 그 다음 각 도메인에 대해 4 개의 특정 완전 연결 계층이 이어집니다.
We set the dimensions of the latent code, the hidden layer, and the style code to 16, 512, and 64, respectively.
잠재 코드, 히든 레이어 및 스타일 코드의 크기를 각각 16, 512, 64로 설정했습니다.
We sample the latent code from the standard Gaussian distribution.
표준 가우스 분포에서 잠재 코드를 샘플링합니다.
We do not apply the pixel normalization [22] to the latent code, which has been observed not to increase model performance in our tasks.
우리는 우리 작업에서 모델 성능을 향상시키지 않는 것으로 관찰 된 잠재 코드에 픽셀 정규화 [22]를 적용하지 않습니다.
We also tried feature normalizations [3, 19], but this degraded performance.
또한 기능 정규화 [3, 19]를 시도했지만 이로 인해 성능이 저하되었습니다.
✅Style encoder (Table 7).

Our style encoder consists of a CNN with K output branches, where K is the number of domains.
스타일 인코더는 K 출력 분기가있는 CNN으로 구성됩니다. 여기서 K는 도메인 수입니다.
Six pre-activation residual blocks are shared among all domains, followed by one specific fully connected layer for each domain.
6 개의 사전 활성화 잔여 블록이 모든 도메인간에 공유되며, 그 다음 각 도메인에 대해 하나의 특정 완전 연결 계층이 이어집니다.
We do not use the global average pooling [16] to extract fine style features of a given reference image.
주어진 참조 이미지의 미세한 스타일 특징을 추출하기 위해 글로벌 평균 풀링 [16]을 사용하지 않습니다.
The output dimension “D” in Table 7 is set to 64, which indicates the dimension of the style code.
표 7의 출력 치수 "D"는 64로 설정되어 스타일 코드의 치수를 나타냅니다.
✅Discriminator (Table 7).
Our discriminator is a multi-task discriminator [35], which contains multiple linear output branches 3.
우리의 판별 기는 다중 선형 출력 분기를 포함하는 다중 작업 판별 기 [35]입니다.
The discriminator contains six pre-activation residual blocks with leaky ReLU [33].
판별 기는 ReLU가 새는 6 개의 사전 활성화 잔여 블록을 포함합니다 [33]
We use K fullyconnected layers for real/fake classification of each domain, where K indicates the number of domains.
각 도메인의 실제 / 가짜 분류를 위해 K 완전 연결 계층을 사용합니다. 여기서 K는 도메인 수를 나타냅니다.
The output dimension “D” is set to 1 for real/fake classification.
출력 차원 "D"는 실제 / 가짜 분류에 대해 1로 설정됩니다.
We do not use any feature normalization techniques [19, 45] nor PatchGAN [20] as they have been observed not to improve output quality.
출력 품질을 향상시키지 않는 것으로 관찰 되었기 때문에 기능 정규화 기술 [19, 45] 또는 PatchGAN [20]을 사용하지 않습니다.
We have observed that in our settings, the multi-task discriminator provides better results than other types of conditional discriminators [36, 37, 39, 42].
우리는 환경에서 다중 작업 판별자가 다른 유형의 조건부 판별 자보다 더 나은 결과를 제공한다는 것을 관찰했습니다 [36, 37, 39, 42].
'비지도학습 > GAN' 카테고리의 다른 글
Patch-Based Image Inpainting with Generative Adversarial Networks,2018 (0) | 2021.02.18 |
---|---|
pix2pixHD,2015 (0) | 2021.02.09 |
[2주차] GAN (수정중) (0) | 2021.01.28 |
[1주차] AE/VAE/GAN(수정중) (0) | 2021.01.28 |
[8주차] Learning to Discover Cross-Domain Relations with Generative Adversarial Networks,2017 (0) | 2021.01.28 |