본문 바로가기

비지도학습/GAN

Improved Training of Wasserstein GANs,2017

Improved Training of Wasserstein GANs

Abstract

Generative Adversarial Networks (GANs) are powerful generative models, but suffer from training instability. The recently proposed Wasserstein GAN (WGAN) makes progress toward stable training of GANs, but sometimes can still generate only poor samples or fail to converge. We find that these problems are often due to the use of weight clipping in WGAN to enforce a Lipschitz constraint on the critic, which can lead to undesired behavior. We propose an alternative to clipping weights: penalize the norm of gradient of the critic with respect to its input. Our proposed method performs better than standard WGAN and enables stable training of a wide variety of GAN architectures with almost no hyperparameter tuning, including 101-layer ResNets and language models with continuous generators. We also achieve high quality generations on CIFAR-10 and LSUN bedrooms.

GAN (Generative Adversarial Network)은 강력한 생성 모델이지만 훈련 불안정으로 어려움을 겪습니다. 최근에 제안 된 Wasserstein GAN (WGAN)은 GAN의 안정적인 훈련을 향한 진전을 이루지 만 때로는 여전히 불량한 샘플 만 생성하거나 수렴하지 못할 수 있습니다. 우리는 이러한 문제가 종종 WGAN에서 가중치 클리핑을 사용하여 비평가에게 Lipschitz 제약을 적용하여 원하지 않는 행동을 유발할 수 있음을 발견했습니다. 우리는 클리핑 가중치에 대한 대안을 제안합니다 : 비평가의 입력과 관련하여 비평가의 기울기 표준에 페널티를줍니다. 우리가 제안한 방법은 표준 WGAN보다 더 나은 성능을 발휘하며 101 계층 ResNet 및 연속 생성기가있는 언어 모델을 포함하여 하이퍼 파라미터 튜닝이 거의없는 다양한 GAN 아키텍처의 안정적인 학습을 가능하게합니다. 우리는 또한 CIFAR-10 및 LSUN 침실에서 고품질 세대를 달성합니다.

 

1 Introduction

Generative Adversarial Networks (GANs) [9] are a powerful class of generative models that cast generative modeling as a game between two networks: a generator network produces synthetic data given some noise source and a discriminator network discriminates between the generator’s output and true data. GANs can produce very visually appealing samples, but are often hard to train, and much of the recent work on the subject [23, 19, 2, 21] has been devoted to finding ways of stabilizing training. Despite this, consistently stable training of GANs remains an open problem. In particular, [1] provides an analysis of the convergence properties of the value function being optimized by GANs. Their proposed alternative, named Wasserstein GAN (WGAN) [2], leverages the Wasserstein distance to produce a value function which has better theoretical properties than the original. WGAN requires that the discriminator (called the critic in that work) must lie within the space of 1-Lipschitz functions, which the authors enforce through weight clipping.

Generative Adversarial Networks (GANs) [9]는 생성 모델을 두 네트워크 간의 게임으로 캐스팅하는 강력한 생성 모델 클래스입니다. 생성기 네트워크는 일부 노이즈 소스가 주어지면 합성 데이터를 생성하고 판별 기 네트워크는 생성기의 출력과 실제 데이터를 구별합니다. GAN은 시각적으로 매우 매력적인 샘플을 생성 할 수 있지만 종종 훈련하기가 어렵고이 주제에 대한 최근 연구 [23, 19, 2, 21]는 훈련을 안정화하는 방법을 찾는 데 전념해 왔습니다. 그럼에도 불구하고 지속적으로 안정적인 GAN 교육은 여전히 ​​열린 문제입니다. 특히, [1]은 GAN에 의해 ​​최적화되는 가치 함수의 수렴 속성에 대한 분석을 제공합니다. Wasserstein GAN (WGAN) [2]이라는 이름의 제안 된 대안은 Wasserstein 거리를 활용하여 원본보다 더 나은 이론적 특성을 갖는 값 함수를 생성합니다. WGAN은 판별 자 (해당 작업에서 비평가라고 함)가 저자가 가중치 클리핑을 통해 시행하는 1-Lipschitz 함수의 공간 내에 있어야한다고 요구합니다.

 

Our contributions are as follows: 1. On toy datasets, we demonstrate how critic weight clipping can lead to undesired behavior. 2. We propose gradient penalty (WGAN-GP), which does not suffer from the same problems. 3. We demonstrate stable training of varied GAN architectures, performance improvements over weight clipping, high-quality image generation, and a character-level GAN language model without any discrete sampling.

우리의 기여는 다음과 같습니다. 1. 장난감 데이터 세트에서 비평가 가중치 클리핑이 어떻게 원치 않는 행동을 유발할 수 있는지 보여줍니다. 2. 우리는 동일한 문제를 겪지 않는 기울기 패널티 (WGAN-GP)를 제안합니다. 3. 다양한 GAN 아키텍처의 안정적인 훈련, 가중치 클리핑에 대한 성능 향상, 고품질 이미지 생성 및 개별 샘플링없이 문자 수준 GAN 언어 모델을 보여줍니다.

 

2 Background

2.1 Generative adversarial networks

The GAN training strategy is to define a game between two competing networks. The generator network maps a source of noise to the input space. The discriminator network receives either a generated sample or a true data sample and must distinguish between the two. The generator is trained to fool the discriminator. Formally, the game between the generator G and the discriminator D is the minimax objective: min G max D E x∼Pr [log(D(x))] + E x˜∼Pg [log(1 − D(x˜))], (1) where Pr is the data distribution and Pg is the model distribution implicitly defined by x˜ = G(z), z ∼ p(z) (the input z to the generator is sampled from some simple noise distribution p, such as the uniform distribution or a spherical Gaussian distribution). If the discriminator is trained to optimality before each generator parameter update, then minimizing the value function amounts to minimizing the Jensen-Shannon divergence between Pr and Pg [9], but doing so often leads to vanishing gradients as the discriminator saturates. In practice, [9] advocates that the generator be instead trained to maximize Ex˜∼Pg [log(D(x˜))], which goes some way to circumvent this difficulty. However, even this modified loss function can misbehave in the presence of a good discriminator [1].

GAN 훈련 전략은 두 경쟁 네트워크 간의 게임을 정의하는 것입니다. 생성기 네트워크는 노이즈 소스를 입력 공간에 매핑합니다. 판별 자 네트워크는 생성 된 샘플 또는 실제 데이터 샘플을 수신하고 둘을 구별해야합니다. 생성기는 판별자를 속이도록 훈련되었습니다. 공식적으로 생성기 G와 판별 기 D 사이의 게임은 최소 목표입니다. min G max DE x ~ Pr [log (D (x))] + E x ~~ Pg [log (1 − D (x ~)) ], (1) 여기서 Pr은 데이터 분포이고 Pg는 x ~ = G (z), z ~ p (z)에 의해 암시 적으로 정의 된 모델 분포입니다 (생성기에 대한 입력 z는 일부 간단한 잡음 분포 p에서 샘플링됩니다. 균일 분포 또는 구형 가우스 분포와 같은). 판별 기가 각 생성기 매개 변수 업데이트 전에 최적으로 훈련 된 경우 값 함수를 최소화하면 Pr과 Pg 사이의 Jensen-Shannon 발산이 최소화되지만 [9], 그렇게하면 판별 기가 포화됨에 따라 기울기가 사라지는 경우가 많습니다. 실제로, [9]는 발전기가 Ex ~~ Pg [log (D (x ~))]를 최대화하도록 훈련을 받아야한다고 주장하며, 이는 이러한 어려움을 피할 수있는 방법입니다. 그러나이 수정 된 손실 함수조차도 좋은 판별자가있는 경우 오작동 할 수 있습니다 [1].

 

2.2 Wasserstein GANs

Wasserstein GANs argues that the divergences which GANs typically minimize are potentially not continuous with respect to the generator’s parameters, leading to training difficulty. They propose instead using the Earth-Mover (also called Wasserstein-1) distance W(q, p), which is informally defined as the minimum cost of transporting mass in order to transform the distribution q into the distribution p (where the cost is mass times transport distance). Under mild assumptions, W(q, p) is continuous everywhere and differentiable almost everywhere. The WGAN value function is constructed using the Kantorovich-Rubinstein duality [25] to obtain min G max D∈D E x∼Pr D(x) − E x˜∼Pg D(x˜)) (2) where D is the set of 1-Lipschitz functions and Pg is once again the model distribution implicitly defined by x˜ = G(z), z ∼ p(z). In that case, under an optimal discriminator (called a critic in the paper, since it’s not trained to classify), minimizing the value function with respect to the generator parameters minimizes W(Pr, Pg). The WGAN value function results in a critic function whose gradient with respect to its input is better behaved than its GAN counterpart, making optimization of the generator easier. Empirically, it was also observed that the WGAN value function appears to correlate with sample quality, which is not the case for GANs [2]. To enforce the Lipschitz constraint on the critic, [2] propose to clip the weights of the critic to lie within a compact space [−c, c]. The set of functions satisfying this constraint is a subset of the k-Lipschitz functions for some k which depends on c and the critic architecture. In the following sections, we demonstrate some of the issues with this approach and propose an alternative.

Wasserstein GANs는 GAN이 일반적으로 최소화하는 발산이 잠재적으로 발전기의 매개 변수와 관련하여 연속적이지 않아 훈련의 어려움을 초래한다고 주장합니다. 그들은 대신에 Earth-Mover (Wasserstein-1이라고도 함) 거리 W (q, p)를 제안하는데, 이는 분포 q를 분포 p로 변환하기 위해 비공식적으로 질량을 운반하는 최소 비용으로 정의됩니다. 질량 배 수송 거리). 온화한 가정 하에서 W (q, p)는 모든 곳에서 연속적이고 거의 모든 곳에서 미분 할 수 있습니다. WGAN 값 함수는 Kantorovich-Rubinstein 이중성 [25]을 사용하여 최소 G max D∈DE x ~ Pr D (x) − E x ~~ Pg D (x ~))를 구합니다. 여기서 D는 집합입니다. 1-Lipschitz 함수와 Pg는 x ~ = G (z), z ∼ p (z)에 의해 암시 적으로 정의 된 모델 분포입니다. 이 경우 최적의 판별 자 (분류를 훈련하지 않았기 때문에 논문에서는 비평가라고 함) 하에서 생성기 매개 변수에 대한 값 함수를 최소화하면 W (Pr, Pg)가 최소화됩니다. WGAN 값 함수는 입력에 대한 기울기가 GAN 대응 함수보다 더 잘 작동하는 비평 함수를 생성하여 생성기 최적화를 더 쉽게 만듭니다. 경험적으로 WGAN 값 함수는 GAN의 경우가 아닌 샘플 품질과 상관 관계가있는 것으로 나타났습니다 [2]. 비평가에게 Lipschitz 제약을 적용하기 위해 [2]는 비평가의 가중치를 콤팩트 한 공간 [-c, c] 내에 놓을 것을 제안합니다. 이 제약을 만족하는 함수 세트는 c와 비평가 아키텍처에 의존하는 일부 k에 대한 k-Lipschitz 함수의 하위 집합입니다. 다음 섹션에서는이 접근 방식의 몇 가지 문제를 보여주고 대안을 제안합니다.

2.3 Properties of the optimal WGAN critic

In order to understand why weight clipping is problematic in a WGAN critic, as well as to motivate our approach, we highlight some properties of the optimal critic in the WGAN framework. We prove these in the Appendix.

WGAN 비평가에서 가중치 클리핑이 문제가되는 이유를 이해하고 접근 방식에 동기를 부여하기 위해 WGAN 프레임 워크에서 최적 비평가의 몇 가지 속성을 강조합니다. 부록에서이를 증명합니다.

 

Proposition 1.

Let Pr and Pg be two distributions in X , a compact metric space. Then, there is a 1-Lipschitz function f ∗ which is the optimal solution of maxkfkL≤1 Ey∼Pr [f(y)] − Ex∼Pg [f(x)]. Let π be the optimal coupling between Pr and Pg, defined as the minimizer of: W(Pr, Pg) = infπ∈Π(Pr,Pg) E(x,y)∼π [kx − yk] where Π(Pr, Pg) is the set of joint distributions π(x, y) whose marginals are Pr and Pg, respectively. Then, if f ∗ is differentiable‡ , π(x = y) = 0§ , and xt = tx + (1 − t)y with 0 ≤ t ≤ 1, it holds that P(x,y)∼π h ∇f ∗ (xt) = y−xt ky−xtk i = 1. Corollary 1. f ∗ has gradient norm 1 almost everywhere under Pr and Pg.

Pr과 Pg를 콤팩트 메트릭 공간 인 X의 두 분포라고합시다. 그러면 maxkfkL≤1 Ey∼Pr [f (y)] − Ex∼Pg [f (x)]의 최적해 인 1-Lipschitz 함수 f *가 있습니다. π를 Pr과 Pg 사이의 최적 커플 링으로 정의하고 다음의 최소화로 정의합니다. W (Pr, Pg) = infπ∈Π (Pr, Pg) E (x, y) ∼π [kx − yk] 여기서 Π (Pr, Pg)는 한계 값이 각각 Pr 및 Pg 인 결합 분포 집합 π (x, y)입니다. 그러면 f ∗가 미분 가능 ‡, π (x = y) = 0§, xt = tx + (1 − t) y (0 ≤ t ≤ 1)이면 P (x, y) ∼π h ∇ f ∗ (xt) = y−xt ky−xtk i = 1. 추론 1. f ∗는 Pr과 Pg 아래 거의 모든 곳에서 기울기 노름 1을가집니다.

 

3 Difficulties with weight constraints

We find that weight clipping in WGAN leads to optimization difficulties, and that even when optimization succeeds the resulting critic can have a pathological value surface. We explain these problems below and demonstrate their effects; however we do not claim that each one always occurs in practice, nor that they are the only such mechanisms. Our experiments use the specific form of weight constraint from [2] (hard clipping of the magnitude of each weight), but we also tried other weight constraints (L2 norm clipping, weight normalization), as well as soft constraints (L1 and L2 weight decay) and found that they exhibit similar problems. To some extent these problems can be mitigated with batch normalization in the critic, which [2] use in all of their experiments. However even with batch normalization, we observe that very deep WGAN critics often fail to converge.

WGAN의 가중치 클리핑은 최적화의 어려움을 초래하고 최적화가 성공하더라도 결과 비평가는 병리학 적 가치 표면을 가질 수 있습니다. 아래에서 이러한 문제를 설명하고 그 효과를 보여줍니다. 그러나 우리는 각각이 항상 실제로 발생한다고 주장하지 않으며, 그것들이 유일한 그러한 메커니즘이라고 주장하지 않습니다. 우리의 실험은 [2] (각 가중치 크기의 하드 클리핑)의 특정 형태의 가중치 제약을 사용하지만 다른 가중치 제약 (L2 표준 클리핑, 가중치 정규화)과 소프트 제약 (L1 및 L2 가중치)도 시도했습니다. decay)와 유사한 문제가 있음을 발견했습니다. 이러한 문제는 비평가의 배치 정규화를 통해 어느 정도 완화 될 수 있으며 [2] 모든 실험에 사용됩니다. 그러나 배치 정규화를 사용하더라도 매우 심층적 인 WGAN 비평가가 종종 수렴하지 못하는 경우가 있습니다.

 

3.1 Capacity underuse 용량 부족

Implementing a k-Lipshitz constraint via weight clipping biases the critic towards much simpler functions. As stated previously in Corollary 1, the optimal WGAN critic has unit gradient norm almost everywhere under Pr and Pg; under a weight-clipping constraint, we observe that our neural network architectures which try to attain their maximum gradient norm k end up learning extremely simple functions. To demonstrate this, we train WGAN critics with weight clipping to optimality on several toy distributions, holding the generator distribution Pg fixed at the real distribution plus unit-variance Gaussian noise. We plot value surfaces of the critics in Figure 1a. We omit batch normalization in the critic. In each case, the critic trained with weight clipping ignores higher moments of the data distribution and instead models very simple approximations to the optimal functions. In contrast, our approach does not suffer from this behavior.

가중치 클리핑을 통해 k-Lipshitz 제약 조건을 구현하면 비평가가 훨씬 단순한 기능으로 편향됩니다. 앞서 추론 1에서 언급했듯이 최적의 WGAN 비평가는 Pr 및 Pg 아래 거의 모든 곳에서 단위 기울기 표준을 가지고 있습니다. 가중치 클리핑 제약 조건 하에서 최대 기울기 표준 k를 얻으려는 신경망 아키텍처는 결국 매우 간단한 함수를 학습하게됩니다. 이를 입증하기 위해 실제 분포에 고정 된 생성기 분포 Pg와 단위 분산 가우시안 노이즈를 유지하면서 여러 장난감 분포에 대한 가중치 클리핑으로 WGAN 비평가를 훈련합니다. 우리는 그림 1a에서 비평가의 가치 표면을 표시합니다. 우리는 비평가에서 배치 정규화를 생략합니다. 각각의 경우 가중치 클리핑으로 훈련 된 비평가는 데이터 분포의 더 높은 순간을 무시하고 대신 최적의 함수에 대한 매우 간단한 근사치를 모델링합니다. 대조적으로, 우리의 접근 방식은 이러한 행동으로 인해 어려움을 겪지 않습니다.

 

3.2 Exploding and vanishing gradients 그라디언트 폭발 및 소실

We observe that the WGAN optimization process is difficult because of interactions between the weight constraint and the cost function, which result in either vanishing or exploding gradients without careful tuning of the clipping threshold c. To demonstrate this, we train WGAN on the Swiss Roll toy dataset, varying the clipping threshold c in [10−1 , 10−2 , 10−3 ], and plot the norm of the gradient of the critic loss with respect to successive layers of activations. Both generator and critic are 12-layer ReLU MLPs without batch normalization. Figure 1b shows that for each of these values, the gradient either grows or decays exponentially as we move farther back in the network. We find our method results in more stable gradients that neither vanish nor explode, allowing training of more complicated networks.

가중치 제약과 비용 함수 사이의 상호 작용으로 인해 WGAN 최적화 프로세스가 어렵 기 때문에 클리핑 임계 값 c를 신중하게 조정하지 않고 기울기가 사라지거나 폭발합니다. 이를 증명하기 위해 스위스 롤 장난감 데이터 세트에서 WGAN을 훈련시키고 [10−1, 10−2, 10−3]에서 클리핑 임계 값 c를 변경하고 연속 레이어에 대한 비평 손실의 기울기 표준을 플로팅합니다. 활성화 생성자와 비평가는 모두 일괄 정규화가없는 12 계층 ReLU MLP입니다. 그림 1b는 이러한 각 값에 대해 네트워크에서 더 멀리 이동함에 따라 기울기가 기하 급수적으로 증가하거나 감소 함을 보여줍니다. 우리는 우리의 방법이 사라지거나 폭발하지 않는보다 안정적인 기울기를 만들어 더 복잡한 네트워크를 훈련 할 수 있음을 발견했습니다.

 

4 Gradient penalty

We now propose an alternative way to enforce the Lipschitz constraint. A differentiable function is 1-Lipschtiz if and only if it has gradients with norm at most 1 everywhere, so we consider directly constraining the gradient norm of the critic’s output with respect to its input. To circumvent tractability issues, we enforce a soft version of the constraint with a penalty on the gradient norm for random samples xˆ ∼ Pxˆ. Our new objective is (3)

이제 우리는 Lipschitz 제약을 적용하는 다른 방법을 제안합니다. 미분 할 수있는 함수는 1-Lipschtiz입니다. 모든 곳에서 노름이 최대 1 인 그래디언트가있는 경우에만 입력과 관련하여 비평가 출력의 그래디언트 노름을 직접 제한하는 것을 고려합니다. 다루기 쉬운 문제를 피하기 위해, 무작위 샘플 xˆ ∼ Pxˆ에 대한 기울기 노름에 대한 패널티와 함께 ​​제약 조건의 소프트 버전을 적용합니다. 우리의 새로운 목표는 (3)

Sampling distribution

We implicitly define Pxˆ sampling uniformly along straight lines between pairs of points sampled from the data distribution Pr and the generator distribution Pg. This is motivated by the fact that the optimal critic contains straight lines with gradient norm 1 connecting coupled points from Pr and Pg (see Proposition 1). Given that enforcing the unit gradient norm constraint everywhere is intractable, enforcing it only along these straight lines seems sufficient and experimentally results in good performance.

데이터 분포 Pr과 생성기 분포 Pg에서 샘플링 된 점 쌍 사이의 직선을 따라 균일하게 Pxˆ 샘플링을 암시 적으로 정의합니다. 이는 최적의 비평가가 Pr과 Pg의 결합 된 점을 연결하는 기울기 노름 1이있는 직선을 포함한다는 사실에 동기를 부여합니다 (제안 1 참조). 모든 곳에서 단위 기울기 노름 제약 조건을 적용하는 것은 다루기 힘들다는 점을 감안할 때 이러한 직선을 따라 적용하는 것만으로 충분 해 보이며 실험적으로 좋은 성능을 얻을 수 있습니다.

Penalty coefficient

All experiments in this paper use λ = 10, which we found to work well across a variety of architectures and datasets ranging from toy tasks to large ImageNet CNNs.

이 백서의 모든 실험은 λ = 10을 사용하며, 장난감 작업에서 대형 ImageNet CNN에 이르는 다양한 아키텍처 및 데이터 세트에서 잘 작동하는 것으로 나타났습니다.

No critic batch normalization

Most prior GAN implementations [22, 23, 2] use batch normalization in both the generator and the discriminator to help stabilize training, but batch normalization changes the form of the discriminator’s problem from mapping a single input to a single output to mapping from an entire batch of inputs to a batch of outputs [23]. Our penalized training objective is no longer valid in this setting, since we penalize the norm of the critic’s gradient with respect to each input independently, and not the entire batch. To resolve this, we simply omit batch normalization in the critic in our models, finding that they perform well without it. Our method works with normalization schemes which don’t introduce correlations between examples. In particular, we recommend layer normalization [3] as a drop-in replacement for batch normalization.

대부분의 이전 GAN 구현 [22, 23, 2]은 훈련을 안정화하기 위해 생성기와 판별 기 모두에서 배치 정규화를 사용하지만 배치 정규화는 판별 기 문제의 형태를 단일 입력을 단일 출력으로 매핑하는 것에서 전체에서 매핑으로 변경합니다. 출력 배치에 대한 입력 배치 [23]. 불이익을받은 훈련 목표는이 설정에서 더 이상 유효하지 않습니다. 전체 배치가 아닌 각 입력과 관련하여 비평가의 기울기 표준에 불이익을주기 때문입니다. 이 문제를 해결하기 위해 모델의 비평가에서 배치 정규화를 생략하여 모델이 없이도 잘 수행된다는 것을 확인했습니다. 우리의 방법은 예간에 상관 관계를 도입하지 않는 정규화 체계와 함께 작동합니다. 특히 배치 정규화를위한 드롭 인 대체물로 레이어 정규화 [3]를 권장합니다.

Two-sided penalty

We encourage the norm of the gradient to go towards 1 (two-sided penalty) instead of just staying below 1 (one-sided penalty). Empirically this seems not to constrain the critic too much, likely because the optimal WGAN critic anyway has gradients with norm 1 almost everywhere under Pr and Pg and in large portions of the region in between (see subsection 2.3). In our early observations we found this to perform slightly better, but we don’t investigate this fully. We describe experiments on the one-sided penalty in the appendix.

 

5 Experiments

5.1 Training random architectures within a set

We experimentally demonstrate our model’s ability to train a large number of architectures which we think are useful to be able to train. Starting from the DCGAN architecture, we define a set of architecture variants by changing model settings to random corresponding values in Table 1. We believe that reliable training of many of the architectures in this set is a useful goal, but we do not claim that our set is an unbiased or representative sample of the whole space of useful architectures: it is designed to demonstrate a successful regime of our method, and readers should evaluate whether it contains architectures similar to their intended application.

From this set, we sample 200 architectures and train each on 32×32 ImageNet with both WGAN-GP and the standard GAN objectives. Table 2 lists the number of instances where either: only the standard GAN succeeded, only WGAN-GP succeeded, both succeeded, or both failed, where success is defined as inception score > min score. For most choices of score threshold, WGAN-GP successfully trains many architectures from this set which we were unable to train with the standard GAN objective. We give more experimental details in the appendix.

학습에 유용하다고 생각되는 많은 아키텍처를 학습하는 모델의 능력을 실험적으로 보여줍니다. DCGAN 아키텍처에서 시작하여 표 1에서 모델 설정을 임의의 해당 값으로 변경하여 아키텍처 변형 세트를 정의합니다.이 세트의 많은 아키텍처에 대한 안정적인 훈련이 유용한 목표라고 생각하지만 우리는 set은 유용한 아키텍처의 전체 공간에 대한 편향되지 않거나 대표적인 샘플입니다. 이는 우리 방법의 성공적인 체제를 보여주기 위해 설계되었으며 독자는 의도 한 애플리케이션과 유사한 아키텍처가 포함되어 있는지 평가해야합니다. 이 세트에서 200 개의 아키텍처를 샘플링하고 각각 WGAN-GP 및 표준 GAN 목표를 사용하여 32x32 ImageNet에서 학습합니다. 표 2에는 표준 GAN 만 성공, WGAN-GP 만 성공, 둘 다 성공 또는 둘 다 실패한 인스턴스 수가 나열되어 있습니다. 여기서 성공은 시작 점수> 최소 점수로 정의됩니다. 대부분의 점수 임계 값 선택에 대해 WGAN-GP는 표준 GAN 목표로 훈련 할 수 없었던이 세트에서 많은 아키텍처를 성공적으로 훈련시킵니다. 우리는 부록에 더 많은 실험적 세부 사항을 제공합니다.

5.2 Training varied architectures on LSUN bedrooms

To demonstrate our model’s ability to train many architectures with its default settings, we train six different GAN architectures on the LSUN bedrooms dataset [31]. In addition to the baseline DCGAN architecture from [22], we choose six architectures whose successful training we demonstrate: (1) no BN and a constant number of filters in the generator, as in [2], (2) 4-layer 512-dim ReLU MLP generator, as in [2], (3) no normalization in either the discriminator or generator (4) gated multiplicative nonlinearities, as in [24], (5) tanh nonlinearities, and (6) 101-layer ResNet generator and discriminator. Although we do not claim it is impossible without our method, to the best of our knowledge this is the first time very deep residual networks were successfully trained in a GAN setting. For each architecture, we train models using four different GAN methods: WGAN-GP, WGAN with weight clipping, DCGAN [22], and Least-Squares GAN [18]. For each objective, we used the default set of optimizer hyperparameters recommended in that work (except LSGAN, where we searched over learning rates). For WGAN-GP, we replace any batch normalization in the discriminator with layer normalization (see section 4). We train each model for 200K iterations and present samples in Figure 2. We only succeeded in training every architecture with a shared set of hyperparameters using WGAN-GP. For every other training method, some of these architectures were unstable or suffered from mode collapse.

기본 설정으로 많은 아키텍처를 훈련하는 모델의 능력을 입증하기 위해 LSUN bedrooms 데이터 세트 [31]에서 6 개의 서로 다른 GAN 아키텍처를 훈련합니다. [22]의베이스 라인 DCGAN 아키텍처에 추가하여 우리가 성공적으로 훈련 한 6 개의 아키텍처를 선택합니다. (1) [2], (2) 4-layer 512에서와 같이 생성기에 BN이없고 필터 수가 일정합니다. -dim ReLU MLP 생성기, [2], (3) 판별 기 또는 생성기에서 정규화 없음 (4) [24], (5) tanh 비선형 성 및 (6) 101- 레이어 ResNet에서와 같이 게이트 된 곱셈 비선형 성 생성자 및 판별 자. 우리가 방법 없이는 불가능하다고 주장하지는 않지만, 우리가 아는 한 GAN 설정에서 매우 깊은 잔여 네트워크가 성공적으로 훈련 된 것은 이번이 처음입니다. 각 아키텍처에 대해 WGAN-GP, 가중치 클리핑이있는 WGAN, DCGAN [22] 및 Least-Squares GAN [18]의 네 가지 GAN 방법을 사용하여 모델을 훈련합니다. 각 목표에 대해 해당 작업에서 권장되는 기본 최적화 하이퍼 파라미터 세트를 사용했습니다 (학습률을 검색 한 LSGAN 제외). WGAN-GP의 경우 판별 기의 배치 정규화를 레이어 정규화로 대체합니다 (섹션 4 참조). 우리는 200K 반복을 위해 각 모델을 훈련하고 그림 2에 샘플을 제시했습니다. WGAN-GP를 사용하는 공유 하이퍼 파라미터 세트로 모든 아키텍처를 훈련하는 데 성공했습니다. 다른 모든 훈련 방법의 경우 이러한 아키텍처 중 일부가 불안정하거나 모드 붕괴로 어려움을 겪었습니다.

5.3 Improved performance over weight clipping

One advantage of our method over weight clipping is improved training speed and sample quality. To demonstrate this, we train WGANs with weight clipping and our gradient penalty on CIFAR10 [13] and plot Inception scores [23] over the course of training in Figure 3. For WGAN-GP, we train one model with the same optimizer (RMSProp) and learning rate as WGAN with weight clipping, and another model with Adam and a higher learning rate. Even with the same optimizer, our method converges faster and to a better score than weight clipping. Using Adam further improves performance. We also plot the performance of DCGAN [22] and find that our method converges more slowly (in wall-clock time) than DCGAN, but its score is more stable at convergence.

체중 감량에 대한 방법의 장점 중 하나는 훈련 속도와 샘플 품질이 향상된다는 것입니다. 이를 증명하기 위해 CIFAR10 [13]에 대한 가중치 클리핑 및 기울기 패널티를 사용하여 WGAN을 훈련하고 그림 3의 훈련 과정에서 Inception 점수 [23]를 플로팅합니다. WGAN-GP의 경우 동일한 최적화 프로그램 (RMSProp)으로 하나의 모델을 훈련합니다. ) 및 가중치 클리핑이있는 WGAN으로 학습률, Adam 및 더 높은 학습률을 사용하는 또 다른 모델. 동일한 옵티 마이저를 사용하더라도 우리의 방법은 가중치 클리핑보다 더 빠르고 더 나은 점수로 수렴됩니다. Adam을 사용하면 성능이 더욱 향상됩니다. 또한 DCGAN [22]의 성능을 플로팅하고 우리의 방법이 DCGAN보다 더 느리게 (벽시계 시간에) 수렴되지만 그 점수는 수렴에서 더 안정적이라는 것을 발견했습니다.

 

5.4 Sample quality on CIFAR-10 and LSUN bedrooms

For equivalent architectures, our method achieves comparable sample quality to the standard GAN objective. However the increased stability allows us to improve sample quality by exploring a wider range of architectures. To demonstrate this, we find an architecture which establishes a new state of the art Inception score on unsupervised CIFAR-10 (Table 3). When we add label information (using the method in [20]), the same architecture outperforms all other published models except for SGAN. Table 3: Inception scores on CIFAR-10. Our unsupervised model achieves state-of-the-art performance, and our conditional model outperforms all others except SGAN. We also train a deep ResNet on 128 × 128 LSUN bedrooms and show samples in Figure 4. We believe these samples are at least competitive with the best reported so far on any resolution for this dataset.

동등한 아키텍처의 경우 당사의 방법은 표준 GAN 목표에 필적하는 샘플 품질을 달성합니다. 그러나 안정성이 향상되어 더 넓은 범위의 아키텍처를 탐색하여 샘플 품질을 개선 할 수 있습니다. 이를 증명하기 위해 비지도 CIFAR-10 (표 3)에서 새로운 상태의 Inception 점수를 설정하는 아키텍처를 찾습니다. 라벨 정보를 추가하면 ([20]의 방법을 사용하여) 동일한 아키텍처가 SGAN을 제외한 다른 모든 게시 된 모델보다 성능이 뛰어납니다. 표 3 : CIFAR-10의 시작 점수. 비지도 모델은 최첨단 성능을 달성하고 조건부 모델은 SGAN을 제외한 다른 모든 모델보다 성능이 뛰어납니다. 또한 128 × 128 LSUN 침실에서 심층 ResNet을 훈련시키고 그림 4에 샘플을 보여줍니다. 우리는 이러한 샘플이이 데이터 세트의 모든 해상도에서 지금까지 가장 잘보고 된 샘플과 적어도 경쟁력이 있다고 생각합니다.

5.5 Modeling discrete data with a continuous generator

To demonstrate our method’s ability to model degenerate distributions, we consider the problem of modeling a complex discrete distribution with a GAN whose generator is defined over a continuous space. As an instance of this problem, we train a character-level GAN language model on the Google Billion Word dataset [6]. Our generator is a simple 1D CNN which deterministically transforms a latent vector into a sequence of 32 one-hot character vectors through 1D convolutions. We apply a softmax nonlinearity at the output, but use no sampling step: during training, the softmax output is passed directly into the critic (which, likewise, is a simple 1D CNN). When decoding samples, we just take the argmax of each output vector.

퇴화 분포를 모델링하는 방법의 능력을 입증하기 위해 생성기가 연속 공간에 대해 정의 된 GAN으로 복잡한 이산 분포를 모델링하는 문제를 고려합니다. 이 문제의 한 예로 Google Billion Word 데이터 세트 [6]에서 문자 수준의 GAN 언어 모델을 학습합니다. 생성기는 1D 컨볼 루션을 통해 잠복 벡터를 32 개의 원-핫 문자 벡터 시퀀스로 결정적으로 변환하는 간단한 1D CNN입니다. 출력에 소프트 맥스 비선형 성을 적용하지만 샘플링 단계는 사용하지 않습니다. 훈련 중에 소프트 맥스 출력은 비평가에게 직접 전달됩니다 (마찬가지로 간단한 1D CNN). 샘플을 디코딩 할 때 각 출력 벡터의 argmax 만 취합니다.

We present samples from the model in Table 4. Our model makes frequent spelling errors (likely because it has to output each character independently) but nonetheless manages to learn quite a lot about the statistics of language. We were unable to produce comparable results with the standard GAN objective, though we do not claim that doing so is impossible.

표 4에 모델의 샘플을 제시합니다. 모델은 철자 오류를 자주 발생하지만 (각 문자를 독립적으로 출력해야하므로) 그럼에도 불구하고 언어 통계에 대해 많은 것을 학습합니다. 불가능하다고 주장하지는 않지만 표준 GAN 목표와 비교할 수있는 결과를 얻을 수 없었습니다.

Table 4: Samples from a WGAN-GP character-level language model trained on sentences from the Billion Word dataset, truncated to 32 characters. The model learns to directly output one-hot character embeddings from a latent vector without any discrete sampling step. We were unable to achieve comparable results with the standard GAN objective and a continuous generator.

표 4 : Billion Word 데이터 세트의 문장에서 훈련 된 WGAN-GP 문자 수준 언어 모델의 샘플 (32 자로 잘림). 이 모델은 별도의 샘플링 단계없이 잠재 벡터에서 원-핫 문자 임베딩을 직접 출력하는 방법을 학습합니다. 표준 GAN 목표와 연속 생성기로 비슷한 결과를 얻을 수 없었습니다.

 

The difference in performance between WGAN and other GANs can be explained as follows. Consider the simplex ∆n = {p ∈ R n : pi ≥ 0, P i pi = 1}, and the set of vertices on the simplex (or one-hot vectors) Vn = {p ∈ R n : pi ∈ {0, 1}, P i pi = 1} ⊆ ∆n. If we have a vocabulary of size n and we have a distribution Pr over sequences of size T, we have that Pr is a distribution on V T n = Vn × · · · × Vn. Since V T n is a subset of ∆T n , we can also treat Pr as a distribution on ∆T n (by assigning zero probability mass to all points not in V T n ).

WGAN과 다른 GAN 간의 성능 차이는 다음과 같이 설명 할 수 있습니다. 심플 렉스 ∆n = {p ∈ R n : pi ≥ 0, P i pi = 1} 및 심플 렉스 (또는 원-핫 벡터)의 정점 세트 Vn = {p ∈ R n : pi ∈ {0 , 1}, P i pi = 1} ⊆ ∆n. 크기 n의 어휘가 있고 크기 T의 시퀀스에 대한 분포 Pr이있는 경우 Pr은 V T n = Vn × · · · × Vn에 대한 분포입니다. V T n은 ∆T n의 부분 집합이기 때문에 Pr을 ∆T n에 대한 분포로 취급 할 수도 있습니다 (V T n에없는 모든 점에 0 확률 질량을 할당하여).

Pr is discrete (or supported on a finite number of elements, namely V T n ) on ∆T n , but Pg can easily be a continuous distribution over ∆T n . The KL divergences between two such distributions are infinite, and so the JS divergence is saturated. Although GANs do not literally minimize these divergences [16], in practice this means a discriminator might quickly learn to reject all samples that don’t lie on V T n (sequences of one-hot vectors) and give meaningless gradients to the generator. However, it is easily seen that the conditions of Theorem 1 and Corollary 1 of [2] are satisfied even on this non-standard learning scenario with X = ∆T n . This means that W(Pr, Pg) is still well defined, continuous everywhere and differentiable almost everywhere, and we can optimize it just like in any other continuous variable setting. The way this manifests is that in WGANs, the Lipschitz constraint forces the critic to provide a linear gradient from all ∆T n towards towards the real points in V T n .

Pr은 ∆T n에서 이산 (또는 유한 한 수의 요소, 즉 V T n에서 지원됨)이지만 Pg는 ∆T n에 대한 연속 분포가 될 수 있습니다. 이러한 두 분포 사이의 KL 발산은 무한하므로 JS 발산은 포화 상태입니다. GAN이 문자 그대로 이러한 발산을 최소화하지는 않지만 [16] 실제로 이것은 판별자가 V T n (원-핫 벡터의 시퀀스)에 있지 않은 모든 샘플을 거부하고 생성기에 의미없는 그라디언트를 제공하는 방법을 빠르게 학습 할 수 있음을 의미합니다. 그러나 X = ∆T n 인이 비표준 학습 시나리오에서도 [2]의 정리 1과 추론 1의 조건이 만족됨을 쉽게 알 수 있습니다. 이는 W (Pr, Pg)가 여전히 잘 정의되어 있고 모든 곳에서 연속적이며 거의 모든 곳에서 구별 가능하며 다른 연속 변수 설정에서와 마찬가지로 최적화 할 수 있음을 의미합니다. 이것이 나타나는 방식은 WGAN에서 Lipschitz 제약 조건이 비평가가 모든 ∆T n에서 V T n의 실제 점을 향해 선형 기울기를 제공하도록 강제한다는 것입니다.

Other attempts at language modeling with GANs [32, 14, 30, 5, 15, 10] typically use discrete models and gradient estimators [28, 12, 17]. Our approach is simpler to implement, though whether it scales beyond a toy language model is unclear.

GAN을 사용한 언어 모델링에 대한 다른 시도 [32, 14, 30, 5, 15, 10]는 일반적으로 이산 모델과 기울기 추정기를 사용합니다 [28, 12, 17]. 우리의 접근 방식은 장난감 언어 모델 이상으로 확장되는지 여부는 명확하지 않지만 구현하기가 더 간단합니다.

5.6 Meaningful loss curves and detecting overfitting

An important benefit of weight-clipped WGANs is that their loss correlates with sample quality and converges toward a minimum. To show that our method preserves this property, we train a WGAN-GP on the LSUN bedrooms dataset [31] and plot the negative of the critic’s loss in Figure 5a. We see that the loss converges as the generator minimizes W(Pr, Pg).

무게가 잘린 WGAN의 중요한 이점은 손실이 샘플 품질과 관련이 있고 최소값으로 수렴된다는 것입니다. 우리의 방법이이 속성을 보존한다는 것을 보여주기 위해 LSUN bedrooms 데이터 세트 [31]에서 WGAN-GP를 훈련시키고 그림 5a에 비평가의 손실에 대한 부정적 결과를 표시합니다. 생성기가 W (Pr, Pg)를 최소화함에 따라 손실이 수렴됨을 알 수 있습니다.

Given enough capacity and too little training data, GANs will overfit. To explore the loss curve’s behavior when the network overfits, we train large unregularized WGANs on a random 1000-image subset of MNIST and plot the negative critic loss on both the training and validation sets in Figure 5b. In both WGAN and WGAN-GP, the two losses diverge, suggesting that the critic overfits and provides an inaccurate estimate of W(Pr, Pg), at which point all bets are off regarding correlation with sample quality. However in WGAN-GP, the training loss gradually increases even while the validation loss drops.

충분한 용량과 너무 적은 훈련 데이터가 주어지면 GAN이 과적 합됩니다. 네트워크가 과적 합할 때 손실 곡선의 동작을 탐색하기 위해 MNIST의 임의 1000 개 이미지 하위 집합에서 대규모 비정규 화 WGAN을 훈련하고 그림 5b의 훈련 및 검증 세트 모두에 부정적인 비평 손실을 플로팅합니다. WGAN과 WGAN-GP 모두에서 두 손실이 갈라져 비평가가 W (Pr, Pg)에 대해 과적 합하고 부정확 한 추정치를 제공함을 시사하며,이 시점에서 샘플 품질과의 상관 관계에 대한 모든 베팅이 해제됩니다. 그러나 WGAN-GP에서는 검증 손실이 감소하더라도 훈련 손실이 점차 증가합니다.

[29] also measure overfitting in GANs by estimating the generator’s log-likelihood. Compared to that work, our method detects overfitting in the critic (rather than the generator) and measures overfitting against the same loss that the network minimizes.

[29] 또한 생성기의 로그 우도를 추정하여 GAN의 과적 합을 측정합니다. 이 작업과 비교하여 우리의 방법은 비평가 (생성자가 아닌)의 과적 합을 감지하고 네트워크가 최소화하는 동일한 손실에 대해 과적 합을 측정합니다.

 

6 Conclusion

In this work, we demonstrated problems with weight clipping in WGAN and introduced an alternative in the form of a penalty term in the critic loss which does not exhibit the same problems. Using our method, we demonstrated strong modeling performance and stability across a variety of architectures. Now that we have a more stable algorithm for training GANs, we hope our work opens the path for stronger modeling performance on large-scale image datasets and language. Another interesting direction is adapting our penalty term to the standard GAN objective function, where it might stabilize training by encouraging the discriminator to learn smoother decision boundaries.

이 작업에서 우리는 WGAN에서 체중 감량 문제를 시연하고 동일한 문제를 나타내지 않는 비평 손실에 페널티 항의 형태로 대안을 도입했습니다. 우리의 방법을 사용하여 다양한 아키텍처에서 강력한 모델링 성능과 안정성을 입증했습니다. 이제 우리는 GAN 훈련을위한보다 안정적인 알고리즘을 갖게되었으므로 우리의 작업이 대규모 이미지 데이터 세트 및 언어에 대한 더 강력한 모델링 성능을위한 길을 열길 바랍니다. 또 다른 흥미로운 방향은 우리의 페널티 항을 표준 GAN 목적 함수에 적용하는 것입니다. 여기에서 판별자가보다 원활한 결정 경계를 학습하도록 장려하여 훈련을 안정화 할 수 있습니다.

A Proof of Proposition 1

Proof. Since X is a compact space, by Theorem 5.10 of [25], part (iii), we know that there is an optimal f ∗ . By Theorem 5.10 of [25], part (ii) we know that if π is an optimal coupling, P(x,y)∼π [f ∗ (y) − f ∗ (x) = ky − xk] = 1 Let (x, y) be such that f ∗ (y)−f ∗ (x) = ky−xk. We can safely assume that x 6= y as well, since this happens under π with probability 1. Let ψ(t) = f ∗ (xt) − f ∗ (x). We claim that ψ(t) = kxt − xk = tky − xk. Let t, t0 ∈ [0, 1], then |ψ(t) − ψ(t 0 )| = kf ∗ (xt) − f ∗ (xt 0 )k ≤ kxt − xt 0k = |t − t 0 |kx − yk Therefore, ψ is kx − yk-Lipschitz. This in turn implies ψ(1) − ψ(0) = ψ(1) − ψ(t) + ψ(t) − ψ(0) ≤ (1 − t)kx − yk + ψ(t) − ψ(0) ≤ (1 − t)kx − yk + tkx − yk = kx − yk However, |ψ(1) − ψ(0)| = |f ∗ (y) − f ∗ (x)| = ky − xk so the inequalities have to actually be equalities. In particular, ψ(t) − ψ(0) = tkx − yk, and ψ(0) = f ∗ (x) − f ∗ (x) = 0. Therefore, ψ(t) = tkx − yk and we finish our claim. Let v = y − xt ky − xtk = y − ((1 − t)x − ty) ky − ((1 − t)x − ty)k = (1 − t)(y − x) k(1 − t)ky − xk = y − x ky − xk Now we know that f ∗ (xt) − f ∗ (x) = ψ(t) = tkx − yk, so f ∗ (xt) = f ∗ (x) + tkx − yk. Then, we have the partial derivative ∂ ∂v f ∗ (xt) = lim h→0 f ∗ (xt + hv) − f ∗ (xt) h = lim h→0 f ∗  x + t(y − x) + h ky−xk (y − x)  − f ∗ (xt) h = lim h→0 f ∗  xt+ h ky−xk  − f ∗ (xt) h = lim h→0 f ∗ (x) +  t + h ky−xk  kx − yk − (f ∗ (x) + tkx − yk) h = lim h→0 h h = 1 12 If f ∗ is differentiable at xt, we know that k∇f ∗ (xt)k ≤ 1 since it is a 1-Lipschitz function. Therefore, by simple Pythagoras and using that v is a unit vector 1 ≤ k∇f ∗ (x)k 2 = hv, ∇f ∗ (xt)i 2 + k∇f ∗ (xt) − hv, ∇f ∗ (xt)ivk 2 = | ∂ ∂v f ∗ (xt)| 2 + k∇f ∗ (xt) − v ∂ ∂v f ∗ (xt)k 2 = 1 + k∇f ∗ (xt) − vk 2 ≤ 1 The fact that both extremes of the inequality coincide means that it was all an equality and 1 = 1+k∇f ∗ (xt)−vk 2 so k∇f ∗ (xt)−vk = 0 and therefore ∇f ∗ (xt) = v. This shows that ∇f ∗ (xt) = y−xt ky−xtk . To conclude, we showed that if (x, y) have the property that f ∗ (y) − f ∗ (x) = ky − xk, then ∇f ∗ (xt) = y−xt ky−xtk . Since this happens with probability 1 under π, we know that P(x,y)∼π  ∇f ∗ (xt) = y − xt ky − xtk  = 1 and we finished the proof.

 

B More details for training random architectures within a set

All models were trained on 32 × 32 ImageNet for 100K generator iterations using Adam with hyperparameters as recommended in [22] (α = 0.0002, β1 = 0.5, β2 = 0.999) for the standard GAN objective and our recommended settings (α = 0.0001, β1 = 0, β2 = 0.9) for WGAN-GP. In the discriminator, if we use batch normalization (or layer normalization) we also apply a small weight decay (λ = 10−3 ), finding that this helps both algorithms slightly.모든 모델은 표준 GAN 목표 및 권장 설정 (α = 0.0001)에 대해 [22] (α = 0.0002, β1 = 0.5, β2 = 0.999)에서 권장하는대로 Adam을 사용하여 100K 생성기 반복을 위해 32 × 32 ImageNet에서 훈련되었습니다. WGAN-GP의 경우 β1 = 0, β2 = 0.9). 판별 기에서 배치 정규화 (또는 레이어 정규화)를 사용하는 경우 작은 가중치 감쇠 (λ = 10−3)도 적용하여 두 알고리즘 모두에 약간 도움이됩니다.

C Experiments with one-sided penalty

We considered a one-sided penalty of the form λ Exˆ∼Pxˆ max(0, k∇xˆD(xˆ)k2 − 1)2 which would penalize gradients larger than 1 but not gradients smaller than 1, but we observe that the two-sided 13 version seems to perform slightly better. We sample 174 architectures from the set specified in Table 1 and train each architecture with the one-sided and two-sided penalty terms. The two-sided penalty achieved a higher Inception score in 100 of the trials, compared to 77 for the one-sided penalty. We note that this result is not statistically significant at p < 0.05 and further is with respect to only one (somewhat arbitrary) metric and distribution of architectures, and it is entirely possible (likely, in fact) that there are settings where the one-sided penalty performs better, but we leave a thorough comparison for future work. Other training details are the same as in Appendix B.

우리는 λ Exˆ∼Pxˆ max (0, k∇xˆD (xˆ) k2 − 1) 2 형식의 단측 페널티를 고려하여 1보다 큰 기울기에는 페널티를 주지만 1보다 작은 기울기에는 영향을주지 않습니다. sided 13 버전은 약간 더 나은 성능을 보입니다. 표 1에 지정된 집합에서 174 개의 아키텍처를 샘플링하고 단측 및 양면 페널티 항을 사용하여 각 아키텍처를 훈련시킵니다. 양측 페널티는 일측 페널티의 77 점에 비해 100 번의 시도에서 더 높은 개시 점수를 얻었습니다. 우리는이 결과가 p <0.05에서 통계적으로 유의하지 않고 하나 (다소 임의적) 메트릭 및 아키텍처 분포와 관련이 있으며, 하나의 설정이있을 가능성이 전적으로 가능합니다 (실제로는). 양면 페널티가 더 잘 수행되지만 향후 작업을 위해 철저한 비교를 남깁니다. 기타 교육 세부 정보는 부록 B와 동일합니다.

 

D Nonsmooth activation functions

The gradient of our objective with respect to the discriminator’s parameters contains terms which involve second derivatives of the network’s activation functions. In the case of networks with ReLU or other common nonsmooth activation functions, this means the gradient is undefined at some points (albeit a measure zero set) and the gradient penalty objective might not be continuous with respect to the parameters. Gradient descent is not guaranteed to succeed in this setting, but empirically this seems not to be a problem for some common activation functions: in our random architecture and LSUN architecture experiments we find that we are able to train networks with piecewise linear activation functions (ReLU, leaky ReLU) as well as smooth activation functions. We do note that we were unable to train networks with ELU activations, whose derivative is continuous but not smooth. Replacing ELU with a very similar nonlinearity which is smooth (softplus(2x+2) 2 − 1) fixed the issue.

판별 자의 매개 변수에 대한 목표의 기울기에는 네트워크 활성화 함수의 2 차 도함수가 포함 된 항이 포함됩니다. ReLU 또는 기타 일반적인 비 부드럽 지 않은 활성화 함수가있는 네트워크의 경우, 이는 기울기가 일부 지점에서 정의되지 않았으며 (측정 값이 0으로 설정되어 있음) 기울기 패널티 목표가 매개 변수와 관련하여 연속적이지 않을 수 있음을 의미합니다. 경사 하강 법이이 설정에서 성공할 것이라는 보장은 없지만 경험적으로 이것은 일부 일반적인 활성화 함수에 문제가되지 않는 것 같습니다. 랜덤 아키텍처 및 LSUN 아키텍처 실험에서 부분 선형 활성화 함수 (ReLU)로 네트워크를 훈련 할 수 있음을 발견했습니다. , 새는 ReLU)뿐만 아니라 부드러운 활성화 기능. 우리는 도함수가 연속적이지만 부드럽 지 않은 ELU 활성화를 사용하여 네트워크를 훈련 할 수 없다는 점에 유의합니다. ELU를 매우 유사한 비선형 성 (softplus (2x + 2) 2 − 1)로 대체하면 문제가 해결되었습니다.

 

E Hyperparameters used for LSUN robustness experiments

For each method we used the hyperparameters recommended in that method’s paper. For LSGAN, we additionally searched over learning rate (because the paper did not make a specific recommendation).

• WGAN with gradient penalty: Adam (α = .0001, β1 = .5, β2 = .9)

• WGAN with weight clipping: RMSProp (α = .00005)

• DCGAN: Adam (α = .0002, β1 = .5)

• LSGAN: RMSProp (α = .0001) [chosen by search over α = .001, .0002, .0001]

E LSUN 견고성 실험에 사용되는 하이퍼 파라미터

각 방법에 대해 해당 방법의 문서에서 권장하는 하이퍼 파라미터를 사용했습니다. LSGAN의 경우 학습률에 대해 추가로 검색했습니다 (논문에서 특정 추천을하지 않았기 때문). • 기울기 패널티가있는 WGAN : Adam (α = .0001, β1 = .5, β2 = .9) • 가중치 클리핑이있는 WGAN : RMSProp (α = .00005) • DCGAN : Adam (α = .0002, β1 = .5) • LSGAN : RMSProp (α = .0001) [α = .001, .0002, .0001에 대한 검색으로 선택됨]

 

F CIFAR-10 ResNet architecture

The generator and critic are residual networks; we use pre-activation residual blocks with two 3 × 3 convolutional layers each and ReLU nonlinearity. Some residual blocks perform downsampling (in the critic) using mean pooling after the second convolution, or nearest-neighbor upsampling (in the generator) before the second convolution. We use batch normalization in the generator but not the critic. We optimize using Adam with learning rate 2 × 10−4 , decayed linearly to 0 over 100K generator iterations, and batch size 64. For further architectural details, please refer to our open-source implementation.

CIFAR-10 ResNet 아키텍처 생성자와 비평가는 잔여 네트워크입니다. 우리는 각각 두 개의 3 × 3 컨벌루션 레이어와 ReLU 비선형 성이있는 사전 활성화 잔여 블록을 사용합니다. 일부 잔여 블록은 두 번째 컨볼 루션 이후의 평균 풀링 또는 두 번째 컨볼 루션 이전의 가장 가까운 이웃 업 샘플링 (생성기에서)을 사용하여 (비평가에서) 다운 샘플링을 수행합니다. 생성기에서 배치 정규화를 사용하지만 비평가는 사용하지 않습니다. 학습률이 2 × 10−4 인 Adam을 사용하여 최적화하고, 10 만 번의 생성기 반복을 통해 선형 적으로 0으로 감소하고, 배치 크기가 64입니다. 아키텍처에 대한 자세한 내용은 오픈 소스 구현을 참조하십시오.

G CIFAR-10 ResNet samples

'비지도학습 > GAN' 카테고리의 다른 글

StyleGANv2-ada  (0) 2021.03.22
AdaIN,2017  (0) 2021.03.11
PGGAN(2019)  (0) 2021.03.11
[논문]StyleGAN,2019  (0) 2021.03.10
Analyzing and Improving the Image Quality of StyleGAN, 2020(StyleGAN2)  (0) 2021.03.02