Abstract
We investigate conditional adversarial networks as a general-purpose solution to image-to-image translation problems.
우리는 이미지 대 이미지 번역 문제에 대한 범용 솔루션으로 조건부 적대 네트워크를 조사합니다.
These networks not only learn the mapping from input image to output image, but also learn a loss function to train this mapping.
이러한 네트워크는 입력 이미지에서 출력 이미지로의 매핑을 학습 할뿐만 아니라이 매핑을 훈련하기위한 손실 함수도 학습합니다.
This makes it possible to apply the same generic approach to problems that traditionally would require very different loss formulations.
이를 통해 전통적으로 매우 다른 손실 공식이 필요한 문제에 동일한 일반적인 접근 방식을 적용 할 수 있습니다.
We demonstrate that this approach is effective at synthesizing photos from label maps, reconstructing objects from edge maps, and colorizing images, among other tasks.
우리는이 접근 방식이 레이블 맵에서 사진을 합성하고, 에지 맵에서 개체를 재구성하고, 이미지에 색상을 지정하는 데 효과적이라는 것을 보여줍니다.
Indeed, since the release of the pix2pix software associated with this paper, a large number of internet users (many of them artists) have posted their own experiments with our system, further demonstrating its wide applicability and ease of adoption without the need for parameter tweaking.
실제로이 문서와 관련된 pix2pix 소프트웨어가 출시 된 이후 많은 인터넷 사용자 (대부분의 아티스트)가 자체 실험을 우리 시스템에 게시하여 매개 변수 조정 없이도 광범위한 적용 가능성과 채택 용이성을 입증했습니다.
As a community, we no longer hand-engineer our mapping functions, and this work suggests we can achieve reasonable results without hand-engineering our loss functions either.
커뮤니티로서 우리는 더 이상 매핑 함수를 직접 엔지니어링하지 않으며,이 작업은 손실 함수를 직접 엔지니어링하지 않고도 합리적인 결과를 얻을 수 있음을 시사합니다.
1. Introduction
Many problems in image processing, computer graphics, and computer vision can be posed as “translating” an input image into a corresponding output image.
이미지 처리, 컴퓨터 그래픽 및 컴퓨터 비전의 많은 문제는 입력 이미지를 해당 출력 이미지로 "변환"하는 것으로 제기 될 수 있습니다.
Just as a concept may be expressed in either English or French, a scene may be rendered as an RGB image, a gradient field, an edge map, a semantic label map, etc.
개념이 영어 또는 프랑스어로 표현되는 것처럼 장면은 RGB 이미지, 그라디언트 필드, 에지 맵, 의미 레이블 맵 등으로 렌더링 될 수 있습니다.
In analogy to automatic language translation, we define automatic image-to-image translation as the task of translating one possible representation of a scene into another, given sufficient training data (see Figure 1).
자동 언어 번역과 유사하게, 충분한 훈련 데이터가 주어지면 자동 이미지-이미지 번역을 장면의 가능한 표현 중 하나를 다른 장면으로 번역하는 작업으로 정의합니다 (그림 1 참조).
Traditionally, each of these tasks has been tackled with separate, special-purpose machinery (e.g., [16, 25, 20, 9, 11, 53, 33, 39, 18, 58, 62]), despite the fact that the setting is always the same:
전통적으로 이러한 각 작업은 별도의 특수 목적 기계 (예 : [16, 25, 20, 9, 11, 53, 33, 39, 18, 58, 62])로 해결되었습니다. 항상 동일합니다 :
predict pixels from pixels.
픽셀에서 픽셀을 예측합니다.
Our goal in this paper is to develop a common framework for all these problems.
이 백서의 목표는 이러한 모든 문제에 대한 공통 프레임 워크를 개발하는 것입니다.
The community has already taken significant steps in this direction, with convolutional neural nets (CNNs) becoming the common workhorse behind a wide variety of image prediction problems.
커뮤니티는 이미이 방향으로 중요한 조치를 취했으며 CNN (convolutional neural net)이 다양한 이미지 예측 문제의 배후에있는 공통의 도구가되었습니다.
CNNs learn to minimize a loss function – an objective that scores the quality of results – and although the learning process is automatic, a lot of manual effort still goes into designing effective losses.
CNN은 손실 함수 (결과의 품질을 평가하는 목표)를 최소화하는 방법을 배우며, 학습 프로세스는 자동이지만 여전히 효과적인 손실을 설계하는 데 많은 수작업이 필요합니다.
In other words, we still have to tell the CNN what we wish it to minimize.
다시 말해, 우리는 CNN이 최소화하기를 원하는 것을 여전히 알려야합니다.
But, just like King Midas, we must be careful what we wish for!
그러나 마이다스 왕처럼 우리는 우리가 원하는 것을 조심해야합니다!
If we take a naive approach and ask the CNN to minimize the Euclidean distance between predicted and ground truth pixels, it will tend to produce blurry results [43, 62].
순진한 접근 방식을 취하고 CNN에 예측 픽셀과 실제 픽셀 사이의 유클리드 거리를 최소화하도록 요청하면 흐릿한 결과를 생성하는 경향이 있습니다 [43, 62].
This is because Euclidean distance is minimized by averaging all plausible outputs, which causes blurring.
이는 모든 타당한 출력을 평균화하여 유클리드 거리가 최소화되어 흐림을 유발하기 때문입니다.
Coming up with loss functions that force the CNN to do what we really want – e.g., output sharp, realistic images – is an open problem and generally requires expert knowledge.
예를 들어 선명하고 사실적인 이미지를 출력하는 등 CNN이 진정 원하는 작업을 수행하도록하는 손실 함수를 찾는 것은 공개 된 문제이며 일반적으로 전문 지식이 필요합니다.
It would be highly desirable if we could instead specify only a high-level goal, like “make the output indistinguishable from reality”, and then automatically learn a loss function appropriate for satisfying this goal.
대신에 "출력을 현실과 구별 할 수 없게 만든다"와 같은 높은 수준의 목표 만 지정하고이 목표를 충족하는 데 적합한 손실 함수를 자동으로 학습 할 수 있다면 매우 바람직 할 것입니다.
Fortunately, this is exactly what is done by the recently proposed Generative Adversarial Networks (GANs) [24, 13, 44, 52, 63].
다행히도 이것은 최근 제안 된 GAN (Generative Adversarial Networks) [24, 13, 44, 52, 63]에서 정확히 수행 한 작업입니다.
GANs learn a loss that tries to classify if the output image is real or fake, while simultaneously training a generative model to minimize this loss.
GAN은 출력 이미지가 실제인지 가짜인지 분류하는 동시에 이러한 손실을 최소화하기 위해 생성 모델을 훈련하는 손실을 학습합니다.
Blurry images will not be tolerated since they look obviously fake. Because GANs learn a loss that adapts to the data, they can be applied to a multitude of tasks that traditionally would require very different kinds of loss functions.
흐릿한 이미지는 분명히 가짜로 보이기 때문에 용납되지 않습니다. GAN은 데이터에 적응하는 손실을 학습하기 때문에 전통적으로 매우 다른 종류의 손실 함수를 필요로하는 수많은 작업에 적용될 수 있습니다.
In this paper, we explore GANs in the conditional setting.
이 백서에서는 조건부 설정에서 GAN을 탐색합니다.
Just as GANs learn a generative model of data, conditional GANs (cGANs) learn a conditional generative model[24].
GAN이 데이터 생성 모델을 학습하는 것처럼 조건부 GAN (cGAN)은 조건부 생성 모델 [24]을 학습합니다.
This makes cGANs suitable for image-to-image translation tasks, where we condition on an input image and generate a corresponding output image.
따라서 cGAN은 입력 이미지를 조건화하고 해당 출력 이미지를 생성하는 이미지 대 이미지 변환 작업에 적합합니다.
GANs have been vigorously studied in the last two years and many of the techniques we explore in this paper have been previously proposed.
GAN은 지난 2 년 동안 활발하게 연구되었으며이 백서에서 살펴본 많은 기술이 이전에 제안되었습니다.
Nonetheless, earlier papers have focused on specific applications, and it has remained unclear how effective image-conditional GANs can be as a general-purpose solution for image-toimage translation.
그럼에도 불구하고 이전 논문은 특정 애플리케이션에 중점을 두 었으며 이미지 조건부 GAN이 이미지 대 이미지 변환을위한 범용 솔루션으로 얼마나 효과적인지 불분명합니다.
Our primary contribution is to demonstrate that on a wide variety of problems, conditional GANs produce reasonable results.
우리의 주요 기여는 다양한 문제에서 조건부 GAN이 합리적인 결과를 생성한다는 것을 보여주는 것입니다.
Our second contribution is to present a simple framework sufficient to achieve good results, and to analyze the effects of several important architectural choices.
두 번째 공헌은 좋은 결과를 달성하고 몇 가지 중요한 아키텍처 선택의 효과를 분석하기에 충분한 간단한 프레임 워크를 제시하는 것입니다.
2. Related work
Structured losses for image modeling 이미지 모델링을위한 구조화 된 손실
Image-to-image translation problems are often formulated as per-pixel classification or regression (e.g., [39, 58, 28, 35, 62]).
이미지-이미지 변환 문제는 종종 픽셀 별 분류 또는 회귀로 공식화됩니다 (예 : [39, 58, 28, 35, 62]).
These formulations treat the output space as “unstructured” in the sense that each output pixel is considered conditionally independent from all others given the input image.
이러한 공식은 각 출력 픽셀이 입력 이미지가 주어진 다른 모든 픽셀과 조건부로 독립적으로 간주된다는 점에서 출력 공간을 "구조화되지 않은"것으로 취급합니다. 대신 조건부 GAN은 구조화 된 손실을 학습합니다.
Conditional GANs instead learn a structured loss.
구조적 손실은 출력의 공동 구성에 불이익을줍니다.
Structured losses penalize the joint configuration of the output.
이미지 모델링을위한 구조화 된 손실 이미지-이미지 변환 문제는 종종 픽셀 별 분류 또는 회귀로 공식화됩니다 (예 : [39, 58, 28, 35, 62]).
These formulations treat the output space as “unstructured” in the sense that each output pixel is considered conditionally independent from all others given the input image.
이러한 공식은 각 출력 픽셀이 입력 이미지가 주어진 다른 모든 픽셀과 조건부로 독립적으로 간주된다는 점에서 출력 공간을 "구조화되지 않은"것으로 취급합니다. 대신 조건부 GAN은 구조화 된 손실을 학습합니다.
A large body of literature has considered losses of this kind, with methods including conditional random fields [10], the SSIM metric [56], feature matching [15], nonparametric losses [37], the convolutional pseudo-prior [57], and losses based on matching covariance statistics [30].
많은 문헌에서 조건부 랜덤 필드 [10], SSIM 메트릭 [56], 특징 매칭 [15], 비모수 손실 [37], 컨볼 루션 의사 사전 [57], 그리고 일치하는 공분산 통계에 기초한 손실 [30].
The conditional GAN is different in that the loss is learned, and can, in theory, penalize any possible structure that differs between output and target.
조건부 GAN은 손실이 학습된다는 점에서 다르며 이론적으로 출력과 목표가 다른 모든 가능한 구조에 페널티를 줄 수 있습니다.
Conditional GANs 조건부 GAN
We are not the first to apply GANs in the conditional setting.
조건부 설정에서 GAN을 처음으로 적용한 것은 아닙니다.
Prior and concurrent works have conditioned GANs on discrete labels [41, 23, 13], text [46], and, indeed, images.
이전 및 동시 작업은 개별 레이블 [41, 23, 13], 텍스트 [46] 및 실제로 이미지에 대한 GAN을 조건화했습니다.
The image-conditional models have tackled image prediction from a normal map [55], future frame prediction [40], product photo generation [59], and image generation from sparse annotations [31, 48] (c.f. [47] for an autoregressive approach to the same problem).
이미지 조건부 모델은 노멀 맵 [55], 미래 프레임 예측 [40], 제품 사진 생성 [59], 희소 주석으로부터 이미지 생성 [31, 48] (자기 회귀에 대한 [47] 참조)에서 이미지 예측을 다루었습니다. 같은 문제에 접근).
Several other papers have also used GANs for image-to-image mappings, but only applied the GAN unconditionally, relying on other terms (such as L2 regression) to force the output to be conditioned on the input.
다른 여러 논문에서도 이미지 대 이미지 매핑에 GAN을 사용했지만, 다른 용어 (L2 회귀와 같은)에 의존하여 출력이 입력에 따라 조정되도록하는 방식으로 GAN을 무조건 적용했습니다.
These papers have achieved impressive results on inpainting [43], future state prediction [64], image manipulation guided by user constraints [65], style transfer [38], and superresolution [36].
이 논문들은 인 페인팅 [43], 미래 상태 예측 [64], 사용자 제약에 의한 이미지 조작 [65], 스타일 전달 [38], 초 해상도 [36]에서 인상적인 결과를 얻었습니다.
Each of the methods was tailored for a specific application.
각 방법은 특정 애플리케이션에 맞게 조정되었습니다.
Our framework differs in that nothing is applicationspecific.
우리의 프레임 워크는 애플리케이션에 특정한 것이 없다는 점에서 다릅니다.
This makes our setup considerably simpler than most others.
이것은 우리의 설정을 대부분의 다른 것보다 훨씬 간단하게 만듭니다.
Our method also differs from the prior works in several architectural choices for the generator and discriminator.
우리의 방법은 또한 생성기와 판별 자에 대한 몇 가지 아키텍처 선택에서 이전 작업과 다릅니다.
Unlike past work, for our generator we use a “U-Net”-based architecture [50], and for our discriminator we use a convolutional “PatchGAN” classifier, which only penalizes structure at the scale of image patches. A similar PatchGAN architecture was previously proposed in [38] to capture local style statistics.
이전 작업과 달리 생성기에서는 "U-Net"기반 아키텍처 [50]를 사용하고, 판별기에는 이미지 패치 규모의 구조에만 페널티를주는 컨볼 루션 "PatchGAN"분류기를 사용합니다. 유사한 PatchGAN 아키텍처가 이전에 [38]에서 로컬 스타일 통계를 캡처하기 위해 제안되었습니다.
Here we show that this approach is effective on a wider range of problems, and we investigate the effect of changing the patch size.
여기서 우리는이 접근 방식이 더 광범위한 문제에 효과적임을 보여주고 패치 크기 변경의 영향을 조사합니다.
3. Method
GANs are generative models that learn a mapping from random noise vector z to output image y, G : z → y [24].
GAN은 랜덤 노이즈 벡터 z에서 출력 이미지 y, G : z → y [24]로 매핑을 학습하는 생성 모델입니다.
In contrast, conditional GANs learn a mapping from observed image x and random noise vector z, to y, G : {x, z} → y.
대조적으로 조건부 GAN은 관찰 된 이미지 x 및 랜덤 노이즈 벡터 z에서 y, G : {x, z} → y 로의 매핑을 학습합니다.
The generator G is trained to produce outputs that cannot be distinguished from “real” images by an adversarially trained discriminator, D, which is trained to do as well as possible at detecting the generator’s “fakes”.
생성기 G는 적대적으로 훈련 된 판별 기 D에 의해 "실제"이미지와 구별 할 수없는 출력을 생성하도록 훈련되었습니다. 이는 생성기의 "가짜"를 감지 할 수있을뿐만 아니라 수행하도록 훈련되었습니다.
This training procedure is diagrammed in Figure 2.
이 교육 절차는 그림 2에 나와 있습니다.
3.1. Objective
The objective of a conditional GAN can be expressed as (1) where G tries to minimize this objective against an adversarial D that tries to maximize it, i.e. G∗ =arg minG maxD LcGAN (G, D).
조건부 GAN의 목적은 (1)로 표현할 수 있습니다. 여기서 G는이를 최대화하려는 적대적 D에 대해이 목표를 최소화하려고합니다. 즉 G * = arg minG maxD LcGAN (G, D).
To test the importance of conditioning the discriminator, we also compare to an unconditional variant in which the discriminator does not observe x: (2)
판별자를 조절하는 것의 중요성을 테스트하기 위해 판별자가 x를 관찰하지 않는 무조건 변형과 비교합니다. (2)
Previous approaches have found it beneficial to mix the GAN objective with a more traditional loss, such as L2 distance [43].
이전 접근법은 GAN 목표를 L2 거리와 같은보다 전통적인 손실과 혼합하는 것이 유익하다는 것을 발견했습니다 [43].
The discriminator’s job remains unchanged, but the generator is tasked to not only fool the discriminator but also to be near the ground truth output in an L2 sense.
판별 자의 역할은 변함이 없지만 생성자는 판별자를 속일뿐만 아니라 L2 의미에서 실제 출력에 가까워 지도록해야합니다.
We also explore this option, using L1 distance rather than L2 as L1 encourages less blurring:(3)
L1이 흐려짐을 줄여 주므로 L2가 아닌 L1 거리를 사용하여이 옵션을 살펴 봅니다. (3)
Our final objective is (4)
우리의 최종 목표는 (4)입니다.
Without z, the net could still learn a mapping from x to y, but would produce deterministic outputs, and therefore fail to match any distribution other than a delta function.
z가 없으면 net은 x에서 y 로의 매핑을 학습 할 수 있지만 결정적 출력을 생성하므로 델타 함수 이외의 분포와 일치하지 않습니다.
Past conditional GANs have acknowledged this and provided Gaussian noise z as an input to the generator, in addition to x (e.g., [55]).
과거의 조건부 GAN은이를인지하고 x와 함께 가우시안 잡음 z를 발생기에 대한 입력으로 제공했습니다 (예 : [55]).
In initial experiments, we did not find this strategy effective – the generator simply learned to ignore the noise – which is consistent with Mathieu et al. [40].
초기 실험에서 우리는이 전략이 효과적이지 않다는 것을 발견하지 못했습니다. 생성자는 단순히 잡음을 무시하는 법을 배웠습니다. 이는 Mathieu et al. [40].
Instead, for our final models, we provide noise only in the form of dropout, applied on several layers of our generator at both training and test time.
대신 최종 모델의 경우 학습 및 테스트 시간에 생성기의 여러 레이어에 적용된 드롭 아웃 형태로만 노이즈를 제공합니다.
Despite the dropout noise, we observe only minor stochasticity in the output of our nets.
드롭 아웃 소음에도 불구하고 우리는 네트의 출력에서 약간의 확률 성만 관찰합니다.
Designing conditional GANs that produce highly stochastic output, and thereby capture the full entropy of the conditional distributions they model, is an important question left open by the present work.
고도로 확률 적 출력을 생성하여 모델링하는 조건부 분포의 전체 엔트로피를 캡처하는 조건부 GAN을 설계하는 것은 현재 작업에서 남겨진 중요한 질문입니다.
3.2. Network architectures
We adapt our generator and discriminator architectures from those in [44].
우리는 생성기 및 판별 기 아키텍처를 [44]의 아키텍처에서 조정합니다.
Both generator and discriminator use modules of the form convolution-BatchNorm-ReLu [29].
생성기와 판별 기 모두 convolution-BatchNorm-ReLu [29] 형식의 모듈을 사용합니다.
Details of the architecture are provided in the supplemental materials online, with key features discussed below.
아키텍처에 대한 자세한 내용은 아래에 설명 된 주요 기능과 함께 온라인 보충 자료에 제공됩니다.
3.2.1 Generator with skips
A defining feature of image-to-image translation problems is that they map a high resolution input grid to a high resolution output grid.
이미지 대 이미지 변환 문제의 정의 특징은 고해상도 입력 그리드를 고해상도 출력 그리드에 매핑한다는 것입니다.
In addition, for the problems we consider, the input and output differ in surface appearance, but bothare renderings of the same underlying structure.
또한 우리가 고려하는 문제의 경우 입력과 출력은 표면 모양이 다르지만 둘 다 동일한 기본 구조의 렌더링입니다.
Therefore, structure in the input is roughly aligned with structure in the output.
따라서 입력의 구조는 출력의 구조와 대략적으로 정렬됩니다.
We design the generator architecture around these considerations.
우리는 이러한 고려 사항을 중심으로 생성기 아키텍처를 설계합니다.
Many previous solutions [43, 55, 30, 64, 59] to problems in this area have used an encoder-decoder network [26].
이 분야의 문제에 대한 많은 이전 솔루션 [43, 55, 30, 64, 59]은 인코더-디코더 네트워크 [26]를 사용했습니다.
In such a network, the input is passed through a series of layers that progressively downsample, until a bottleneck layer, at which point the process is reversed.
이러한 네트워크에서 입력은 단계적으로 다운 샘플링되는 일련의 계층을 통과하여 병목 계층이 될 때까지 프로세스가 반전됩니다.
Such a network requires that all information flow pass through all the layers, including the bottleneck.
이러한 네트워크에서는 모든 정보 흐름이 병목 현상을 포함하여 모든 계층을 통과해야합니다.
For many image translation problems, there is a great deal of low-level information shared between the input and output, and it would be desirable to shuttle this information directly across the net.
많은 이미지 변환 문제의 경우 입력과 출력간에 공유되는 많은 저수준 정보가 있으며이 정보를 네트워크를 통해 직접 전송하는 것이 바람직합니다.
For example, in the case of image colorization, the input and output share the location of prominent edges.
예를 들어 이미지 색상 화의 경우 입력과 출력이 눈에 띄는 가장자리의 위치를 공유합니다.
To give the generator a means to circumvent the bottleneck for information like this, we add skip connections, following the general shape of a “U-Net” [50].
생성기에 이와 같은 정보의 병목 현상을 피할 수있는 수단을 제공하기 위해 "U-Net"[50]의 일반적인 형태에 따라 스킵 연결을 추가합니다.
Specifically, we add skip connections between each layer i and layer n − i,where n is the total number of layers.
특히, 각 레이어 i와 레이어 n-i 사이에 스킵 연결을 추가합니다. 여기서 n은 총 레이어 수입니다.
Each skip connection simply concatenates all channels at layer i with those at layer n − i.
각 스킵 연결은 레이어 i의 모든 채널을 레이어 n-i의 채널과 연결합니다.
3.2.2 Markovian discriminator (PatchGAN)
It is well known that the L2 loss – and L1, see Figure 4 – produces blurry results on image generation problems [34].
L2 손실과 L1 (그림 4 참조)이 이미지 생성 문제에 대해 흐릿한 결과를 생성한다는 것은 잘 알려져 있습니다 [34].
Although these losses fail to encourage high-frequency crispness, in many cases they nonetheless accurately capture the low frequencies.
이러한 손실은 고주파 선명도를 장려하지 못하지만, 그럼에도 불구하고 많은 경우 저주파를 정확하게 포착합니다.
For problems where this is the case, we do not need an entirely new framework to enforce correctness at the low frequencies.
이 경우 문제의 경우 저주파에서 정확성을 강화하기 위해 완전히 새로운 프레임 워크가 필요하지 않습니다.
L1 will already do.
L1은 이미 할 것입니다.
This motivates restricting the GAN discriminator to only model high-frequency structure, relying on an L1 term to force low-frequency correctness (Eqn. 4).
이것은 GAN 판별기를 저주파 정확성을 강제하기 위해 L1 항에 의존하여 고주파 구조 만 모델링하도록 제한하는 동기를 부여합니다 (Eqn. 4).
In order to model high-frequencies, it is sufficient to restrict our attention to the structure in local image patches.
고주파를 모델링하려면 로컬 이미지 패치의 구조에 대한 관심을 제한하는 것으로 충분합니다.
Therefore, we design a discriminator architecture – which we term a PatchGAN – that only penalizes structure at the scale of patches.
따라서 우리는 패치 규모에서만 구조에 불이익을주는 판별 자 아키텍처 (PatchGAN이라고 함)를 설계합니다.
This discriminator tries to classify if each N ×N patch in an image is real or fake.
이 판별 기는 이미지의 각 N × N 패치가 진짜인지 가짜인지 분류하려고합니다.
We run this discriminator convolutionally across the image, averaging all responses to provide the ultimate output of D.
이 판별기를 이미지 전체에 컨볼 루션 방식으로 실행하여 모든 응답을 평균하여 D의 궁극적 인 출력을 제공합니다.
In Section 4.4, we demonstrate that N can be much smaller than the full size of the image and still produce high quality results.
섹션 4.4에서 N이 이미지의 전체 크기보다 훨씬 작을 수 있으며 여전히 고품질 결과를 생성 할 수 있음을 보여줍니다.
This is advantageous because a smaller PatchGAN has fewer parameters, runs faster, and can be applied to arbitrarily large images.
이것은 더 작은 PatchGAN이 더 적은 매개 변수를 갖고 더 빠르게 실행되며 임의로 큰 이미지에 적용될 수 있기 때문에 유리합니다.
Such a discriminator effectively models the image as a Markov random field, assuming independence between pixels separated by more than a patch diameter.
이러한 판별 기는 패치 지름 이상으로 분리 된 픽셀 간의 독립성을 가정하여 이미지를 Markov 랜덤 필드로 효과적으로 모델링합니다
This connection was previously explored in [38], and is also the common assumption in models of texture [17, 21] and style [16, 25, 22, 37].
이 연결은 이전에 [38]에서 탐색되었으며, 텍스처 모델 [17, 21] 및 스타일 [16, 25, 22, 37]에서도 일반적인 가정입니다.
Therefore, our PatchGAN can be understood as a form of texture/style loss.
따라서 PatchGAN은 텍스처 / 스타일 손실의 한 형태로 이해 될 수 있습니다.
3.3. Optimization and inference
To optimize our networks, we follow the standard approach from [24]: we alternate between one gradient descent step on D, then one step on G.
네트워크를 최적화하기 위해 [24]의 표준 접근 방식을 따릅니다. D에서 하나의 경사 하강 단계를 번갈아 가며 G에서 한 단계를 번갈아 가며 수행합니다.
As suggested in the original GAN paper, rather than training G to minimize log(1 − D(x, G(x, z)), we instead train to maximize log D(x, G(x, z)) [24].
원래 GAN 논문에서 제안했듯이 G를 훈련하여 log (1 − D (x, G (x, z))를 최소화하는 대신 log D (x, G (x, z))를 최대화하도록 훈련합니다. [24] .
In addition, we divide the objective by 2 while optimizing D, which slows down the rate at which D learns relative to G. We use minibatch SGD and apply the Adam solver [32], with a learning rate of 0.0002, and momentum parameters β1 = 0.5, β2 = 0.999.
또한 목표를 2로 나누면서 D를 최적화하면 D가 G에 비해 학습하는 속도가 느려집니다. 미니 배치 SGD를 사용하고 학습률 0.0002와 운동량 매개 변수 β1로 Adam 솔버 [32]를 적용합니다. = 0.5, β2 = 0.999.
At inference time, we run the generator net in exactly the same manner as during the training phase.
추론 시간에 우리는 훈련 단계에서와 똑같은 방식으로 제너레이터 네트를 실행합니다.
This differs from the usual protocol in that we apply dropout at test time, and we apply batch normalization [29] using the statistics of the test batch, rather than aggregated statistics of the training batch.
이것은 테스트 시간에 드롭 아웃을 적용하고 훈련 배치의 집계 된 통계보다는 테스트 배치의 통계를 사용하여 배치 정규화 [29]를 적용한다는 점에서 일반적인 프로토콜과 다릅니다.
This approach to batch normalization, when the batch size is set to 1, has been termed “instance normalization” and has been demonstrated to be effective at image generation tasks [54].
배치 크기가 1로 설정 될 때 배치 정규화에 대한 이러한 접근 방식은 "인스턴스 정규화"라고 불리며 이미지 생성 작업에서 효과적인 것으로 입증되었습니다 [54].
In our experiments, we use batch sizes between 1 and 10 depending on the experiment
실험에서는 실험에 따라 1에서 10 사이의 배치 크기를 사용합니다.
4. Experiments
To explore the generality of conditional GANs, we test the method on a variety of tasks and datasets, including both graphics tasks, like photo generation, and vision tasks, like semantic segmentation:
조건부 GAN의 일반성을 탐색하기 위해 사진 생성과 같은 그래픽 작업과 시맨틱 분할과 같은 비전 작업을 포함한 다양한 작업 및 데이터 세트에서 방법을 테스트합니다.
• Semantic labels↔photo, trained on the Cityscapes dataset [12]. 시맨틱 라벨 ↔ 사진, Cityscapes 데이터 세트 [12]에서 학습.
• Architectural labels→photo, trained on CMP Facades[45]. 건축 라벨 → 사진, CMP Facades [45]에서 교육.
• Map↔aerial photo, trained on data scraped from Google Maps. 지도 ↔ 공중 사진, Google지도에서 스크랩 한 데이터로 훈련.
• BW→color photos, trained on [51]. BW → 컬러 사진, [51] 교육.
• Edges→photo, trained on data from [65] and [60]; binary edges generated using the HED edge detector [58] plus postprocessing.
Edges → photo, [65]와 [60]의 데이터로 훈련 됨; HED 에지 검출기 [58]와 후 처리를 사용하여 생성 된 이진 에지.
• Sketch→photo: tests edges→photo models on humandrawn sketches from [19].
Sketch → photo : [19]에서 인간이 그린 스케치에서 가장자리 → 사진 모델을 테스트합니다.
• Day→night, trained on [33]. 주간 → 야간, [33]에 훈련.
• Thermal→color photos, trained on data from [27]. 열 화상 → 컬러 사진, [27]의 데이터로 훈련.
• Photo with missing pixels→inpainted photo, trained on Paris StreetView from [14]. 누락 된 픽셀이있는 사진 → 도색 된 사진, [14]의 Paris StreetView에서 훈련.
Details of training on each of these datasets are provided in the supplemental materials online.
이러한 각 데이터 세트에 대한 자세한 교육 내용은 온라인 보충 자료에서 제공됩니다.
In all cases, the input and output are simply 1-3 channel images.
모든 경우에 입력 및 출력은 단순히 1-3 채널 이미지입니다.
Qualitative results are shown in Figures 8, 9, 11, 10, 13, 14, 15,16, 17, 18, 19, 20. Several failure cases are highlighted in Figure 21.
질적 평가 결과는 그림 8, 9, 11, 10, 13, 14, 15,16, 17, 18, 19, 20에 나와 있습니다. 여러 실패 사례가 그림 21에 강조 표시되어 있습니다.
더욱 포괄적인 결과는 phillipi.github.io/pix2pix/.
Data requirements and speed 데이터 요구 사항 및 속도
We note that decent results can often be obtained even on small datasets.
작은 데이터 세트에서도 적절한 결과를 얻을 수있는 경우가 많습니다.
Our facade training set consists of just 400 images (see results in Figure 14), and the day to night training set consists of only 91 unique webcams (see results in Figure 15).
우리의 파사드 트레이닝 세트는 단 400 개의 이미지로 구성되며 (그림 14의 결과 참조), 낮부터 밤까지의 트레이닝 세트는 91 개의 고유 한 웹캠으로 만 구성됩니다 (그림 15의 결과 참조).
On datasets of this size, training can be very fast: for example, the results shown in Figure 14 took less than two hours of training on a single Pascal Titan X GPU.
이 크기의 데이터 세트에서 훈련은 매우 빠를 수 있습니다. 예를 들어 그림 14에 표시된 결과는 단일 Pascal Titan X GPU에서 훈련하는 데 2 시간 미만이 걸렸습니다.
At test time, all models run in well under a second on this GPU.
테스트 시간에 모든 모델은이 GPU에서 1 초 미만으로 실행됩니다.
4.1. Evaluation metrics
Evaluating the quality of synthesized images is an open and difficult problem [52].
합성 된 이미지의 품질을 평가하는 것은 개방적이고 어려운 문제입니다 [52].
Traditional metrics such as perpixel mean-squared error do not assess joint statistics of the result, and therefore do not measure the very structure that structured losses aim to capture.
픽셀 당 평균 제곱 오차와 같은 기존 메트릭은 결과의 공동 통계를 평가하지 않으므로 구조화 된 손실이 포착하려는 바로 그 구조를 측정하지 않습니다.
To more holistically evaluate the visual quality of our results, we employ two tactics.
결과의 시각적 품질을보다 전체적으로 평가하기 위해 두 가지 전술을 사용합니다.
First, we run “real vs. fake” perceptual studies on Amazon Mechanical Turk (AMT).
첫째, Amazon Mechanical Turk (AMT)에 대해 "실제 대 가짜"지각 연구를 실행합니다.
For graphics problems like colorization and photo generation, plausibility to a human observer is often the ultimate goal.
채색 및 사진 생성과 같은 그래픽 문제의 경우, 인간 관찰자에 대한 타당성이 궁극적 인 목표 인 경우가 많습니다.
Therefore, we test our map generation, aerial photo generation, and image colorization using this approach.
따라서, 이 접근 방식을 사용하여지도 생성, 항공 사진 생성 및 이미지 색상 화를 테스트합니다.
Second, we measure whether or not our synthesized cityscapes are realistic enough that off-the-shelf recognition system can recognize the objects in them.
둘째, 우리는 합성 된 도시 풍경이 기성 인식 시스템이 그 안에있는 물체를 인식 할 수있을만큼 충분히 현실적인지 여부를 측정합니다.
This metric is similar to the “inception score” from [52], the object detection evaluation in [55], and the “semantic interpretability” measures in [62] and [42].
이 측정 항목은 [52]의 "초기 점수", [55]의 물체 감지 평가, [62] 및 [42]의 "의미 적 해석 가능성"측정과 유사합니다.
AMT perceptual studies AMT 지각 연구
For our AMT experiments, we followed the protocol from [62]: Turkers were presented with a series of trials that pitted a “real” image against a “fake” image generated by our algorithm.
AMT 실험을 위해 우리는 [62]의 프로토콜을 따랐습니다. Turkers는 우리 알고리즘에 의해 생성 된“가짜”이미지에 대해“실제”이미지를 움푹 패인 일련의 실험을 받았습니다.
On each trial, each image appeared for 1 second, after which the images disappeared and Turkers were given unlimited time to respond as to which was fake.
각 시험에서 각 이미지가 1 초 동안 나타나고 그 후 이미지가 사라지고 Turkers는 어느 것이 가짜인지에 대한 응답을 무제한으로 받았습니다.
The first 10 images of each session were practice and Turkers were given feedback.
각 세션의 처음 10 개의 이미지는 연습이었고 Turkers는 피드백을 받았습니다.
No feedback was provided on the 40 trials of the main experiment.
본 실험의 40 회 시험에 대한 피드백은 제공되지 않았습니다.
Each session tested just one algorithm at a time, and Turkers were not allowed to complete more than one session. ∼ 50 Turkers evaluated each algorithm.
각 세션은 한 번에 하나의 알고리즘 만 테스트했으며 Turkers는 하나 이상의 세션을 완료 할 수 없습니다. ~ 50 명의 Turkers가 각 알고리
Unlike [62], we did not include vigilance trials.
[62]와 달리, 우리는 경계 시험을 포함하지 않았습니다.
For our colorization experiments, the real and fake images were generated from the same grayscale input.
색상 화 실험을 위해 실제 이미지와 가짜 이미지는 동일한 회색조 입력에서 생성되었습니다.
For map↔aerial photo, the real and fake images were not generated from the same input, in order to make the task more difficult and avoid floor-level results.
지도 ↔ 공중 사진의 경우 작업을 더 어렵게 만들고 바닥 수준의 결과를 피하기 위해 동일한 입력에서 실제 이미지와 가짜 이미지가 생성되지 않았습니다.
For map↔aerial photo, we trained on 256×256 resolution images, but exploited fully-convolutional translation (described above) to test on 512 × 512 images, which were then downsampled and presented to Turkers at 256 × 256 resolution.
map↔aerial 사진의 경우, 우리는 256x256 해상도 이미지에 대해 훈련했지만, 위에서 설명한 512x512 이미지를 테스트하기 위해 완전 컨볼 루션 변환을 이용했으며, 그런 다음 다운 샘플링하여 256x256 해상도로 Turkers에 제공했습니다.
For colorization, we trained and tested on 256 × 256 resolution images and presented the results to Turkers at this same resolution.
채색을 위해 우리는 256 × 256 해상도 이미지를 훈련하고 테스트했으며이 같은 해상도로 Turkers에 결과를 제시했습니다.
“FCN-score”
While quantitative evaluation of generative models is known to be challenging, recent works [52, 55, 62, 42] have tried using pre-trained semantic classifiers to measure the discriminability of the generated stimuli as a pseudo-metric.
생성 모델의 정량적 평가는 어려운 것으로 알려져 있지만 최근 연구 [52, 55, 62, 42]는 생성 된 자극의 구별 성을 의사 메트릭으로 측정하기 위해 사전 훈련 된 의미 분류기를 사용하여 시도했습니다.
The intuition is that if the generated images are realistic, classifiers trained on real images will be able to classify the synthesized image correctly as well.
직감적으로 생성 된 이미지가 사실적이라면 실제 이미지에 대해 훈련 된 분류자는 합성 된 이미지도 올바르게 분류 할 수 있습니다.
To this end, we adopt the popular FCN-8s [39] architecture for semantic segmentation, and train it on the cityscapes dataset.
이를 위해 우리는 시맨틱 분할을 위해 인기있는 FCN-8s [39] 아키텍처를 채택하고 도시 경관 데이터 세트에서 훈련합니다.
We then score synthesized photos by the classification accuracy against the labels these photos were synthesized from.
그런 다음 이러한 사진이 합성 된 레이블에 대한 분류 정확도로 합성 된 사진에 점수를 매 깁니다.
4.2. Analysis of the objective function 목적 함수 분석
Which components of the objective in Eqn. 4 are important?
Eqn에서 목표의 어떤 구성 요소. 4가 중요합니까?
We run ablation studies to isolate the effect of the L1 term, the GAN term, and to compare using a discriminator conditioned on the input (cGAN, Eqn. 1) against using an unconditional discriminator (GAN, Eqn. 2).
우리는 절제 연구를 실행하여 L1 항, GAN 항의 효과를 분리하고 입력 (cGAN, Eqn. 1)을 조건부 판별기를 사용하여 무조건 판별 기 (GAN, Eqn. 2)를 사용하는 것과 비교합니다.
Figure 4 shows the qualitative effects of these variations on two labels→photo problems.
그림 4는 두 라벨 → 사진 문제에 대한 이러한 변화의 정 성적 영향을 보여줍니다.
L1 alone leads to reasonable but blurry results. The cGAN alone (setting λ = 0 in Eqn. 4) gives much sharper results but introduces visual artifacts on certain applications.
L1만으로는 합리적이지만 모호한 결과를 얻을 수 있습니다. cGAN 만 사용하면 (식 4에서 λ = 0으로 설정) 훨씬 더 선명한 결과를 얻을 수 있지만 특정 애플리케이션에서 시각적 아티팩트가 발생합니다.
Adding both terms together (with λ = 100) reduces these artifacts.
두 항을 함께 추가하면 (λ = 100) 이러한 인공물이 줄어 듭니다.
We quantify these observations using the FCN-score on the cityscapes labels→photo task (Table 1):
우리는 도시 경관 라벨 → 사진 작업 (표 1)에서 FCN 점수를 사용하여 이러한 관찰을 정량화합니다.
the GAN-based objectives achieve higher scores, indicating that the synthesized images include more recognizable structure.
GAN 기반 목표는 더 높은 점수를 달성하여 합성 된 이미지에 더 인식 가능한 구조가 포함되어 있음을 나타냅니다.
We also test the effect of removing conditioning from the discriminator (labeled as GAN).
또한 판별 자 (GAN으로 표시됨)에서 조건을 제거하는 효과를 테스트합니다.
In this case, the loss does not penalize mismatch between the input and output; it only cares that the output look realistic.
이 경우 손실은 입력과 출력 간의 불일치에 불이익을주지 않습니다. 출력이 사실적으로 보이는지에만 관심이 있습니다.
This variant results in poor performance; examining the results reveals that the generator collapsed into producing nearly the exact same output regardless of input photograph.
이 변형으로 인해 성능이 저하됩니다. 결과를 살펴보면 생성기가 입력 사진에 관계없이 거의 똑같은 출력을 생성하도록 붕괴되었음을 알 수 있습니다.
Clearly, it is important, in this case, that the loss measure the quality of the match between input and output, and indeed cGAN performs much better than GAN.
분명히,이 경우 손실이 입력과 출력 간의 일치 품질을 측정하는 것이 중요하며 실제로 cGAN은 GAN보다 훨씬 더 나은 성능을 발휘합니다.
Note, however, that adding an L1 term also encourages that the output respect the input, since the L1 loss penalizes the distance between ground truth outputs, which correctly match the input, and synthesized outputs, which may not.
그러나 L1 용어를 추가하면 L1 손실이 입력과 정확히 일치하는 Ground Truth 출력과 그렇지 않을 수있는 합성 출력 사이의 거리에 페널티를주기 때문에 출력이 입력을 존중하도록 권장합니다.
Correspondingly, L1+GAN is also effective at creating realistic renderings that respect the input label maps.
이에 따라 L1 + GAN은 입력 레이블 맵을 존중하는 사실적인 렌더링을 만드는데도 효과적입니다.
Combining all terms, L1+cGAN, performs similarly well.
모든 용어를 결합하면 L1 + cGAN도 비슷하게 잘 수행됩니다.
Colorfulness 색상화
A striking effect of conditional GANs is that they produce sharp images, hallucinating spatial structure even where it does not exist in the input label map.
조건부 GAN의 눈에 띄는 효과는 입력 레이블 맵에 존재하지 않더라도 선명한 이미지를 생성하여 공간 구조를 환각하는 것입니다.
One might imagine cGANs have a similar effect on “sharpening” in the spectral dimension – i.e. making images more colorful.
cGAN이 스펙트럼 차원의 "선명도"에 비슷한 영향을 미친다고 상상할 수 있습니다. 즉, 이미지를 더욱 화려하게 만듭니다.
Just as L1 will incentivize a blur when it is uncertain where exactly to locate an edge, it will also incentivize an average, grayish color when it is uncertain which of several plausible color values a pixel should take on.
L1이 가장자리를 정확히 찾을 위치가 불확실 할 때 블러를 인센티브로 제공하는 것처럼 픽셀이 가져야 할 몇 가지 그럴듯한 색상 값 중 어떤 값을 가져야할지 불확실 할 때 평균적인 회색 색상도 인센티브를 제공합니다.
Specially, L1 will be minimized by choosing the median of the conditional probability density function over possible colors.
특히 L1은 가능한 색상보다 조건부 확률 밀도 함수의 중앙값을 선택하여 최소화됩니다.
An adversarial loss, on the other hand, can in principle become aware that grayish outputs are unrealistic, and encourage matching the true color distribution [24].
반면에 적대적 손실은 원칙적으로 칙칙한 출력이 비현실적이라는 것을 인식하고 실제 색상 분포와 일치하도록 장려 할 수 있습니다 [24].
In Figure 7, we investigate whether our cGANs actually achieve this effect on the Cityscapes dataset.
그림 7에서는 cGAN이 실제로 Cityscapes 데이터 세트에서이 효과를 달성하는지 조사합니다.
The plots show the marginal distributions over output color values in Lab color space.
플롯은 Lab 색상 공간의 출력 색상 값에 대한 주변 분포를 보여줍니다.
The ground truth distributions are shown with a dotted line.
Ground Truth 분포는 점선으로 표시됩니다.
It is apparent that L1 leads to a narrower distribution than the ground truth, confirming the hypothesis that L1 encourages average, grayish colors.
L1이 실측 값보다 더 좁은 분포로 이어지는 것이 분명하여 L1이 평균적인 회색 색상을 장려한다는 가설을 확인합니다.
Using a cGAN, on the other hand, pushes the output distribution closer to the ground truth.
반면에 cGAN을 사용하면 출력 분포가 지상 실측 값에 더 가깝게 밀립니다.
4.3. Analysis of the generator architecture 생성기 아키텍처 분석
A U-Net architecture allows low-level information to shortcut across the network. Does this lead to better results?
U-Net 아키텍처를 사용하면 낮은 수준의 정보를 네트워크 전체에서 바로 가기 할 수 있습니다. 이것이 더 나은 결과로 이어 집니까?
Figure 5 and Table 2 compare the U-Net against an encoderdecoder on cityscape generation.
그림 5 및 표 2는 U-Net과 도시 경관 생성시 인코더 디코더를 비교합니다.
The encoder-decoder is created simply by severing the skip connections in the UNet.
인코더-디코더는 UNet에서 스킵 연결을 끊기 만하면 생성됩니다.
The encoder-decoder is unable to learn to generate realistic images in our experiments.
인코더-디코더는 실험에서 사실적인 이미지를 생성하는 방법을 배울 수 없습니다.
The advantages of the U-Net appear not to be specific to conditional GANs: when both U-Net and encoder-decoder are trained with an L1 loss, the U-Net again achieves the superior results.
U-Net의 장점은 조건부 GAN에만 국한되지 않는 것으로 보입니다. U-Net과 인코더-디코더가 모두 L1 손실로 훈련되면 U-Net이 다시 우수한 결과를 얻습니다.
4.4. From PixelGANs to PatchGANs to ImageGANs PixelGAN에서 PatchGAN에서 ImageGAN으로
We test the effect of varying the patch size N of our discriminator receptive fields, from a 1 × 1 “PixelGAN” to a full 286 × 286 “ImageGAN”.
우리는 판별 기 수용 필드의 패치 크기 N을 1 × 1 "PixelGAN"에서 전체 286 × 286 "ImageGAN"으로 변경하는 효과를 테스트합니다.
Figure 6 shows qualitative results of this analysis and Table 3 quantifies the effects using the FCN-score.
그림 6은이 분석의 정 성적 결과를 보여 주며 표 3은 FCN 점수를 사용하여 효과를 정량화합니다.
Note that elsewhere in this paper, unless specified, all experiments use 70 × 70 PatchGANs, and for this section all experiments use an L1+cGAN loss.
이 백서의 다른 곳에서는 지정하지 않는 한 모든 실험에서 70 × 70 PatchGAN을 사용하고이 섹션의 경우 모든 실험에서 L1 + cGAN 손실을 사용합니다.
The PixelGAN has no effect on spatial sharpness but does increase the colorfulness of the results (quantified in Figure 7).
PixelGAN은 공간 선명도에는 영향을 미치지 않지만 결과의 색상을 증가시킵니다 (그림 7에서 정량화 됨).
For example, the bus in Figure 6 is painted gray when the net is trained with an L1 loss, but becomes red with the PixelGAN loss.
예를 들어, 그림 6의 버스는 네트가 L1 손실로 훈련되면 회색으로 칠해 지지만 PixelGAN 손실로 인해 빨간색이됩니다.
Color histogram matching is a common problem in image processing [49], and PixelGANs may be a promising lightweight solution.
컬러 히스토그램 매칭은 이미지 처리에서 일반적인 문제이며 [49] PixelGAN은 유망한 경량솔루션 일 수 있습니다.
Using a 16×16 PatchGAN is sufficient to promote sharp outputs, and achieves good FCN-scores, but also leads to tiling artifacts.
16 × 16 PatchGAN을 사용하면 선명한 출력을 촉진하고 좋은 FCN 점수를 얻을 수 있지만 타일링 아티팩트도 발생합니다.
The 70 × 70 PatchGAN alleviates these artifacts and achieves slightly better scores.
70 × 70 PatchGAN은 이러한 아티팩트를 완화하고 약간 더 나은 점수를 얻습니다.
Scaling beyond this, to the full 286 × 286 ImageGAN, does not appear to improve the visual quality of the results, and in fact gets a considerably lower FCN-score (Table 3).
이를 넘어서 전체 286 × 286 ImageGAN으로 확장해도 결과의 시각적 품질이 향상되지는 않으며 실제로 FCN 점수가 상당히 낮아집니다 (표 3).
This may be because the ImageGAN has many more parameters and greater depth than the 70 × 70 PatchGAN, and may be harder to train.
이는 ImageGAN이 70 × 70 PatchGAN보다 더 많은 매개 변수와 깊이를 가지고 있고 훈련하기가 더 어려울 수 있기 때문일 수 있습니다.
Fully-convolutional translation
An advantage of the PatchGAN is that a fixed-size patch discriminator can be applied to arbitrarily large images.
PatchGAN의 장점은 고정 된 크기의 패치 판별기를 임의로 큰 이미지에 적용 할 수 있다는 것입니다.
We may also apply the generator convolutionally, on larger images than those on which it was trained. We test this on the map↔aerial photo task.
훈련 된 이미지보다 더 큰 이미지에 컨볼 루션 방식으로 생성기를 적용 할 수도 있습니다. map↔aerial photo task에서 테스트합니다.
After training a generator on 256×256 images, we test it on 512×512 images. The results in Figure 8 demonstrate the effectiveness of this approach.
256x256 이미지에서 생성기를 훈련 한 후 512x512 이미지에서 테스트합니다. 그림 8의 결과는이 접근 방식의 효과를 보여줍니다.
4.5. Perceptual validation
We validate the perceptual realism of our results on the tasks of map↔aerial photograph and grayscale→color.
지도 ↔ 항공 사진 및 그레이 스케일 → 컬러 작업에 대한 결과의 지각 적 사실성을 검증합니다.
Results of our AMT experiment for map↔photo are given in Table 4.
지도 ↔ 사진에 대한 AMT 실험 결과는 표 4와 같다.
The aerial photos generated by our method fooled participants on 18.9% of trials, significantly above the L1 baseline, which produces blurry results and nearly never fooled participants. In contrast, in the photo→map direction our method only fooled participants on 6.1% of trials, and this was not significantly different than the performance of the L1 baseline (based on bootstrap test).
우리의 방법으로 생성 된 항공 사진은 L1 기준선보다 훨씬 높은 18.9 %의 실험에서 참가자를 속였으며, 이는 흐릿한 결과를 생성하고 참가자를 거의 속이지 않았습니다. 대조적으로, 사진 →지도 방향에서 우리의 방법은 6.1 %의 시험에서 참가자를 속였고, 이것은 L1 기준선의 성능 (부트 스트랩 테스트 기준)과 크게 다르지 않았습니다.
This may be because minor structural errors are more visible in maps, which have rigid geometry, than in aerial photographs, which are more chaotic.
이는 경미한 구조적 오류가 더 혼란스러운 항공 사진보다 단단한 기하학을 가진지도에서 더 잘 보이기 때문일 수 있습니다.
We trained colorization on ImageNet [51], and tested on the test split introduced by [62, 35].
ImageNet [51]에서 색상 화를 훈련하고 [62, 35]에서 소개 한 테스트 분할에서 테스트했습니다.
Our method, with L1+cGAN loss, fooled participants on 22.5% of trials (Table 5).
L1 + cGAN 손실이있는 우리의 방법은 22.5 %의 실험에서 참가자를 속였습니다 (표 5).
We also tested the results of [62] and a variant of their method that used an L2 loss (see [62] for details).
또한 [62]의 결과와 L2 손실을 사용하는 방법의 변형을 테스트했습니다 (자세한 내용은 [62] 참조).
The conditional GAN scored similarly to the L2 variant of [62] (difference insignificant by bootstrap test), but fell short of [62]’s full method, which fooled participants on 27.8% of trials in our experiment.
조건부 GAN은 [62]의 L2 변형 (부트 스트랩 테스트에서 차이가 미미 함)과 유사한 점수를 얻었지만 [62]의 전체 방법에 미치지 못하여 실험의 27.8 %에서 참가자를 속였습니다.
We note that their method was specifically engineered to do well on colorization.
우리는 그들의 방법이 특히 채색을 잘 수행하도록 설계되었음을 주목합니다.
4.6. Semantic segmentation
Conditional GANs appear to be effective on problems where the output is highly detailed or photographic, as is common in image processing and graphics tasks.
조건부 GAN은 이미지 처리 및 그래픽 작업에서 흔히 볼 수 있듯이 출력이 매우 상세하거나 사진 인 문제에 효과적인 것으로 보입니다.
What about vision problems, like semantic segmentation, where the output is instead less complex than the input?
출력이 입력보다 덜 복잡한 의미 론적 분할과 같은 시각 문제는 어떻습니까?
To begin to test this, we train a cGAN (with/without L1 loss) on cityscape photo→labels.
이를 테스트하기 위해 우리는 도시 풍경 사진 → 라벨에서 cGAN (L1 손실 유무)을 훈련합니다.
Figure 10 shows qualitative results, and quantitative classification accuracies are reported in Table 6.
그림 10은 정 성적 결과를 보여 주며 정량적 분류 정확도는 표 6에보고되어 있습니다.
Interestingly, cGANs, trained without the L1 loss, are able to solve this problem at a reasonable degree of accuracy.
흥미롭게도 L1 손실없이 훈련 된 cGAN은 합리적인 정확도로이 문제를 해결할 수 있습니다.
To our knowledge, this is the first demonstration of GANs successfully generating “labels”, which are nearly discrete, rather than “images”, with their continuousvalued variation2.
우리가 아는 한, 이것은 GAN이 연속 값 변동으로 "이미지"가 아니라 거의 불연속적인 "라벨"을 성공적으로 생성하는 첫 번째 데모입니다 2.
Although cGANs achieve some success, they are far from the best available method for solving this problem:
cGAN은 약간의 성공을 거두지 만이 문제를 해결하기위한 최상의 방법과는 거리가 멀습니다.
simply using L1 regression gets better scores than using a cGAN, as shown in Table 6.
표 6에 표시된 것처럼 단순히 L1 회귀를 사용하면 cGAN을 사용하는 것보다 더 좋은 점수를 얻습니다.
We argue that for vision problems, the goal (i.e. predicting output close to the ground truth) may be less ambiguous than graphics tasks, and reconstruction losses like L1 are mostly sufficient.
우리는 비전 문제의 경우 목표 (즉, 지상 진실에 가까운 출력 예측)가 그래픽 작업보다 덜 모호 할 수 있으며 L1과 같은 재구성 손실로 대부분 충분하다고 주장합니다.
4.7. Community-driven Research
Since the initial release of the paper and our pix2pix codebase, the Twitter community, including computer vision and graphics practitioners as well as visual artists, have successfully applied our framework to a variety of novel image-to-image translation tasks, far beyond the scope of the original paper.
논문과 pix2pix 코드베이스가 처음 발표 된 이후로, 컴퓨터 비전과 그래픽 실무자, 비주얼 아티스트를 포함한 Twitter 커뮤니티는 범위를 훨씬 넘어서는 다양한 새로운 이미지 대 이미지 번역 작업에 프레임 워크를 성공적으로 적용했습니다. 원본 종이의.
Figure 11 and Figure 12 show just a few examples from the #pix2pix hashtag, including Background removal, Palette generation, Sketch → Portrait, Sketch→Pokemon, ”Do as I Do” pose transfer, Learning to see: Gloomy Sunday, as well as the bizarrely popular #edges2cats and #fotogenerator.
그림 11과 그림 12는 배경 제거, 팔레트 생성, 스케치 → 초상화, 스케치 → 포켓몬,”Do as I Do”포즈 전송, 보는 법 배우기 : Gloomy Sunday, 그리고 # pix2pix 해시 태그의 몇 가지 예를 보여줍니다. 기괴하게 인기있는 # edges2cats 및 #fotogenerator.
Note that these applications are creative projects, were not obtained in controlled, scientific conditions, and may rely on some modifications to the pix2pix code we released.
이러한 응용 프로그램은 창의적인 프로젝트이며 통제되고 과학적인 조건에서 얻은 것이 아니며 우리가 출시 한 pix2pix 코드에 대한 일부 수정에 의존 할 수 있습니다.
Nonetheless, they demonstrate the promise of our approach as a generic commodity tool for image-to-image translation problems.
그럼에도 불구하고 그들은 이미지 대 이미지 번역 문제에 대한 일반적인 상품 도구로서의 접근 방식에 대한 약속을 보여줍니다.
5. Conclusion
The results in this paper suggest that conditional adversarial networks are a promising approach for many imageto-image translation tasks, especially those involving highly structured graphical outputs.
이 논문의 결과는 조건부 적대 네트워크가 많은 이미지 대 이미지 번역 작업, 특히 고도로 구조화 된 그래픽 출력을 포함하는 작업에 대한 유망한 접근 방식임을 시사합니다.
These networks learn a loss adapted to the task and data at hand, which makes them applicable in a wide variety of settings.
이러한 네트워크는 작업 및 데이터에 맞게 조정 된 손실을 학습하여 다양한 설정에 적용 할 수 있습니다.
'비지도학습 > 임시' 카테고리의 다른 글
Learning to Discover Cross-Domain Relationswith Generative Adversarial Networks,2017(DiscoGAN) (0) | 2021.01.20 |
---|---|
DCGAN Review (0) | 2021.01.18 |
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, 2020 (0) | 2021.01.17 |
Conditional Generative Adversarial Nets (0) | 2021.01.17 |
StarGAN v2: Diverse Image Synthesis for Multiple Domains (0) | 2021.01.15 |