Patch-Based Image Inpainting with Generative Adversarial Networks, 2018
Abstract
1. Introduction
2. Related works
3. Proposed Method
3.1 Generator network
3.2 Discriminator network
3.3 Objective function(Reconstruction loss/Adversarial Loss/Joint Loss)
4. Results
4.1 Datasets(Paris Street View/Google Street View/Places)
4.2 Training details and implementation
4.3 Ablation study
4.4 Comparative evaluation(speed/PSNRandSSIM)
4.5 Perceptual evaluation
4.6 Visual results
5. Conclusion
Abstract 요약
상대적으로 큰 누락 영역에 대한 이미지 인페인팅 영역은 최근 전용 심층 신경망의 적응을 통해 크게 발전했습니다.
그러나 현재 네트워크 솔루션은 여전히 원치 않는 아티팩트와 노이즈를 복구된 영역에 도입합니다.
유명한 GAN (Generative Adversarial Network) 프레임 워크에 기반한 이미지 인페인팅 방법을 제시합니다.
제안된 PGGAN 방법은 글로벌 GAN (G-GAN) 아키텍처와 patchGAN 접근법을 결합한 판별 네트워크를 포함합니다.
GAN and patchGAN, then splits paths to produce two adversarial losses that feed the generator network in order to capture both local continuity of image texture and pervasive global features in images.
PGGAN은 먼저 G-GAN과 patchGAN간에 네트워크 계층을 공유 한 다음 경로를 분할하여 이미지 텍스처의 로컬 연속성과 이미지의 퍼지는(pervasive) 글로벌 기능을 모두 캡처하기 위해 생성기 네트워크에 공급하는 두 개의 적대적 손실을 생성합니다.
제안된 프레임 워크는 광범위하게 평가되며, 최근 최신 기술과의 비교를 포함한 결과는 시각적 및 정량적 평가 모두에서 상당한 개선을 달성했음을 보여줍니다.
1. Introduction 소개
이미지 인페인팅(Image Inpainting)은 손상된 이미지를 복구하거나 누락 된 부품을 다시 채우기 위해 고급 사진 및 비디오 편집 응용 프로그램에서 널리 사용되는 재구성 기술입니다.
인페인팅( Inpainting)의 목적은 눈에 띄는 변화없이 이미지를 재구성하는 것이라고 말할 수 있습니다.
작은 열화(deteriorations)를 수정하는 것은 비교적 간단하지만, 고차원 이미지 텍스처 공간의 큰 가변성(variabilities)과 복잡성(complexity )으로 인해 큰 구멍을 채우거나 장면에서 물체를 제거하는 것은 여전히 어렵습니다.
우리는 이미지의 큰 공백을 완성하는 신경망 모델과 학습 프레임 워크를 제안합니다.
손상된 영역(들)이 큰 공간을 차지하므로, 정보 손실이 상당하므로 CNN 모델은 현실적인 출력을 생성하기 위해 로컬 및 글로벌 조화와 적합성을 모두 처리해야합니다.
생성 모델의 최근 발전은 초고해상도 [15, 18, 6], 디블러링 [28], 노이즈 제거 [39] 및 페인팅과 같은 [25, 34,11, 21].(such as super-resolution [15, 18, 6], deblurring [28], denoising [39] and inpainting [25, 34,11, 21]. )
사실적인 텍스처 합성에 대한 필수 질문 중 하나는 "현실주의"(”realism”)또는 "자연스러움"( ”naturalness”)을 어떻게 측정 할 수 있습니까?
이미지가 실제인지 인위적으로 구성되었는지를 정확하게 결정하는 알고리즘이나 아직 존재하지 않는 공식을 공식화해야합니다.
Euclidean Distance와 같은 원시 목적 함수는 이미지의 일반 구조에 대한 정보를 측정하고 비교하는 데 도움이 되지만, 흐릿한 출력을 유발하는 가능한 강도 값의 평균으로 수렴하는 경향이 있습니다.
이 도전적인 문제를 해결하기 위해 Goodfellow et al. 제안된 Generative Adversarial Networks (GAN) [7]는 실제 이미지와 생성 된 출력의 비교를 기반으로 훈련 된 합성 모델입니다.
또한 이미지가 실제 분포에서 나오는지 아니면 생성기 네트워크 출력에서 나오는지 분류하기 위해 식별 네트워크가 포함됩니다.
학습 중에 생성 네트워크는 판별기 네트워크에 의해 계산 된 적대 손실로 점수가 매겨집니다.
전체 이미지를 실제 또는 가짜로 점수매기는 것은 작은 이미지에 사용할 수 있지만, [25] 고해상도 합성은 전역 구조와 함께 로컬 세부 사항에 더 많은 주의를 기울여야합니다 [34, 11, 21].
Isola et al. 입력에서 로컬 패치를 평가하기 위해 GAN 설정에서 판별자를 재구성하는 PatchGAN을 도입했습니다 [13].
이 작업은 PatchGAN이 생성 된 이미지의 품질을 향상시키는 것으로 나타 났지만 아직 이미지 인페인팅을 위해 탐색되지 않았습니다.
이를 위해 글로벌 GAN (G-GAN) 및 PatchGAN 접근 방식을 결합하여 로컬 및 글로벌 정보를 집계하는 새로운 판별기를 설계합니다.
이 논문에서는 다음과 같은 기여를 통해 이미지 인페인팅 아키텍처를 제안합니다.
• 처음에 네트워크 계층을 공유하는 PatchGAN과 G-GAN의 조합은 나중에 로컬 연속성과 이미지의 전체적 특징을 모두 캡처하기 위해 두 개의 개별 적대적 손실이있는 분할 경로를 사용합니다.(Combination of PatchGAN and G-GAN that first shares network layers, later uses split paths with two separate adversarial losses in order to capture both local continuity and holistic features in images;)
• 고해상도 이미지 인페인팅을 위해 생성된 전체 End-to-end 학습 네트워크에서 ResNet [14]에 확장 및 보간된 컨볼루션 추가;(Addition of dilated and interpolated convolutions to ResNet [14] in an overall end-to-end training network created for high-resolution image inpainting;)
• 절제 연구를 통한 다양한 네트워크 구성 요소 분석;(Analysis of different network components through ablation studies;)
• 최신의 인페인팅 방법에 대한 자세한 비교.( A detailed comparison to latest state-of-the-art inpainting methods.)
2. Related works
AutoEncoders (AE)의 아이디어는 지난 10 년간 생성 모델링 문헌을 지배했습니다.Variational AutoEncoder [17]와 AE를 Denoising Autoencoder (DAE) [31]와 같이 효율적인 근사 최적화와 연결하는 이론적 발전은 이론 및 신경망 (NN)구현 측면에서 이미지 합성 모델의 빌딩 블록을 구성합니다. (Theoretical developments in connecting probabilistic inference with efficient approximate optimization as in Variational AutoEncoders [17] and the intuitive expansion of AEs to Denoising Autoencoders (DAE) [31] constitute building blocks of image synthesis models both in terms of theory and neural network (NN) implementations. )
특히, NN 아키텍처의 설계는 원하는대로 레이어를 통과하는 정보 흐름을 형성하므로 텍스처 생성에 결정적인 영향을 미칩니다.
AE(오토인코더) 프레임 워크는 입력 이미지를 추상 표현으로 변환한 다음 학습된 특징에서 이미지를 복구합니다.
역전파에서 기울기 흐름을 개선하기 위해 [26]에서 합성 품질을 개선하기 위해 스킵 연결(skip connection)이 추가되었습니다.
기울기 흐름을 향상시키는 잔여 연결(Residual connection) [9, 10, 37, 29, 33]은 생성 모델에도 적용됩니다 [14, 13, 39, 8, 19].
아키텍처 설계 외에도 최근에 배치 정규화 [12], 인스턴스 정규화 [30], 확장된 conv [36] 및 interpolated conv [24]으로 도입 된 구성 요소는 이미지 생성 프로세스의 결과에 유망한 효과를 생성합니다 [14, 26, 18, 15, 11].
적대적 훈련은 텍스처 생성기 CNN (Convolutional Neural Networks)의 중요한 단계가 되었습니다.
인간의 supervision없이 보다 사실적인 이미지를 생성하도록 생성 네트워크를 구동하기 위해 상당한 그라디언트를 제공합니다.
그러나 학습 중에는 불안정한 판별기 동작으로 인해 생성기 수렴을 방해합니다.
또한 GAN은 이미지를 전체적으로 고려하고, 글로벌 이미지에 잘 맞는 이미지 패치를 생성하기보다는 사실적인 이미지 생성에만 집중합니다.
GAN의 속성은 원래의 인페인팅 목표와 양립 할 수 없습니다.(incompatible)
이러한 문제를 어느 정도 해결하기 위해 지난 몇 년 동안 수많은 GAN 유사 아키텍처가 제안되었습니다 [40, 23, 27, 4, 13].
최근 제안된 PatchGAN [13, 20]은 다양한 이미지 생성 문제에 적용할 수있는 간단한 프레임 워크를 제공합니다.
전체 이미지를 등급 지정하는 대신 입력 위로 창을 밀어 패치가 진짜인지 가짜인지를 나타내는 점수를 생성합니다.
로컬 연속성이 유지됨에 따라 생성 네트워크는 제안된 기술의 일부 결과를 보여주는 표지 그림에 설명 된대로 사용 가능한 컨텍스트에서 더 자세한 정보를 나타낼 수 있습니다.
우리가 아는 한, 우리의 작업은 도장 문제를 해결하기 위해 PatchGAN 접근 방식을 수용 한 최초의 것입니다.
Inpainting : 단일 이미지에 대해 작업한 초기 inpainting 연구 [2, 3, 22, 1]는 일반적으로 유사하거나 가장 가까운 이미지 영역의 텍스처로 누락된 영역을 채우는 솔루션을 만들었으므로 글로벌 구조 정보가 부족했습니다.
CNN을 inpainting에 통합 한 선구적인 연구는 Pathak et al. [25](context encoder).
그들은 Context-Encoder (CE) 아키텍처를 개발하고 적대적 훈련[7]을 적용하여 이미지의 누락된 부분을 회귀하면서 기능을 학습했습니다.
CE가 유망한 결과를 보였지만, CE에서 AutoEncoder 네트워크의 부적절한 표현 생성 기술은 상당한 양의 믿을 수없는 결과를 가져왔습니다.
손상된 영역에 대한 근접성을 고려한 중요도 가중치 컨텍스트 손실은 [35]에서 활용됩니다.
Yang et al. [34], CE와 유사한 네트워크는 입력의 글로벌 구조를 얻기 위해 적대적 손실과 유클리드 손실로 훈련됩니다.
그런 다음 [20]의 스타일 전송 방법을 사용하여 마스크 영역의 작은 패치의 특징을 손상되지 않은 영역의 특징에 가깝게하여 텍스처 세부 사항을 개선.
임의 영역 완성에 대한 최근의 두 가지 연구 [21,11]는 글로벌 GAN 판별기 (G-GAN) 위에 적대적 손실을 강조하기 위해 채워진 영역만 고려하는 새로운 판별 기 네트워크를 추가합니다.
로컬 판별자 (L-GAN)라고하는 이 추가 네트워크는 로컬 구조 세부 사항을 노출하는 것을 용이하게합니다.
이러한 작업은 큰 구멍 채우기 문제에 대해 눈에 띄는 결과를 보여 주었지만, L-GAN이 마스크 위치에 대한 컨디셔닝을 강조하는 것이 가장 큰 단점입니다.
이로 인해, LGAN이 관심을 갖는 마스크 영역과 마스크되지 않은 영역의 손상되지 않은 텍스처 사이에 불일치가 발생하는 것으로 관찰됩니다.
합성된 영상에 후처리 방법을 적용하여 동일한 문제를 [11]에 나타내었다.
[21]에서 LGAN은 전체 이미지 의미론과 호환되지 않는 독립적인 텍스처를 생성하기 위해 생성 네트워크를 푸시합니다.
이 문제는 결함을 수정하는 확장 네트워크를 추가하여 해결됩니다.
반면에 우리가 제안한 방법은 가능한 모든 지역 지역과 지역 정보를 최대한 활용하기 위해 지역 간의 종속성을 탐색합니다.
3. Proposed Method
임의의 큰 구멍 채우기 문제에 대한 생성적 CNN 모델과 훈련 절차를 소개합니다.
생성기 네트워크는 손상된 이미지를 가져와 복구된 이미지를 재구성하려고합니다.
ResNet [14] 아키텍처를 생성기 모델로 사용하여 몇 가지 변경 사항을 적용했습니다.
학습 중에 우리는 적대적 손실을 사용하여 사실적인 결과물을 얻습니다.
우리 작업의 핵심은 다음과 같습니다.
우리는 G-GAN 구조와 PGGAN이라고 부르는 PatchGAN 접근 방식을 결합한 새로운 판별기 네트워크를 설계.
제안된 네트워크 아키텍처는 그림 2에 나와 있습니다.
3.1. Generator network
우리가 구성하는 생성 ResNet은 [14]에 소개된 아키텍처 지침을 사용하여 다운 샘플링, 잔여 블록 및 업 샘플링 부분으로 구성됩니다.
다운 샘플링 레이어는 풀링 레이어없이 스트라이드 컨볼루션을 사용하여 구현됩니다.
나머지 블록은 활성화 맵의 너비나 높이를 변경하지 않습니다.
우리의 네트워크는 end-to-end로 완료 작업을 수행하므로 출력은 입력과 동일한 차원을 가져야합니다.
따라서 모든 실험의 구성에서 다운 샘플링 및 업 샘플링 레이어의 수는 동일하게 선택됩니다.
먼 지역 간의 종속성을 나타내는 receptive field(수용 필드)의 크기는 텍스처 생성에 중요한 영향을 미칩니다.
Receptive field를 증가시키기 위해, 서브 샘플링의 양이 증가하면 생성기 네트워크의 업샘플링 부분은 일반적으로 낮은 품질 또는 흐릿한 출력으로 이어지는 더 어려운 문제에 직면.
확장된 컨볼루션 연산은 서브 샘플링을 적용하거나 과도한 양의 컨볼루션 레이어를 추가하지 않고, receptive field size를 늘리기 위해 [36]에서 사용.
확장된 컨볼루션은 컨볼루션 가중치를 더 넓은 영역으로 분산하여 매개 변수 수를 늘리지 않고, receptive field size를 크게 확장합니다.
이것은 inpainting을 위해 [11]에 의해 처음 사용되었습니다.
또한 텍스처 합성 문제에 대한 확장된 conv의 효과를 조사합니다.
그림 3과 같이 실험에서는 세 가지 다른 잔차 블록 유형이 사용됩니다.
유형 a라고하는 첫 번째 residual block에는 정규화, 활성화 및 residual block이라는 두 개의 표준 회선만 포함됩니다. 다른 유형은 확장된 conv를 도입.
유형 b 블록은 정규화 계층 앞에 확장을 배치하고, 유형 c 블록은 활성화 계층 뒤에 확장을 사용합니다.
네트워크에서 dilation(확장)이 사용되는 동안 dilation 매개 변수는 1부터 시작하여 각 잔여 블록에서 2배씩 증가합니다.
Interpolated conv는 Odena et al. [24]에 의해 제안되었습니다.
Transposed conv로 인한 업샘플링 작업 중에 잘 알려진 바둑판 아티팩트를 극복합니다.
저해상도 기능 맵에서 고해상도로의 직접 매핑을 학습하는 대신 입력 크기를 원하는 크기로 조정한 다음 conv를 적용합니다.
그림 5는 보간 된 회선이 이미지 합성에 어떻게 우아하게 영향을 미치는지 보여줍니다.
3.2. Discriminator network
판별기 네트워크 D는 생성 된 이미지와 실제 이미지를 가져와서 구별하는 것을 목표로 하고 생성기 네트워크 G는 이를 속이기 위해 노력합니다.
D가 입력을 성공적으로 분류하는 한 G는 적대적 손실을 통해 D 네트워크가 제공하는 기울기의 이점을 얻습니다.
우리는 그림 2에 묘사 된 PGGAN 접근 방식을 통해 이미지 전체의 품질과 로컬 세부 사항의 일관성을 측정하는 객관적인 값을 얻는 목표를 달성.
두 개의 개별 네트워크를 동시에 훈련하는 대신 가중치 공유 아키텍처를 설계합니다.
처음 몇 개의 레이어에서 일반적인 낮은 수준의 시각적 기능을 배울 수 있습니다.
특정 레이어 후에는 두 경로로 나뉩니다.
첫 번째 경로는 전체 이미지가 실제인지 아닌지를 결정하는 바이너리 출력으로 끝납니다.
두 번째 경로는 PatchGAN과 유사한 로컬 텍스처 세부 사항을 평가합니다.
완전히 연결된 레이어는 판별자 네트워크의 두번째 경로 끝에 추가되어 로컬 패치에 대한 완전한 종속성을 나타냅니다.
따라서 전체 아키텍처는 전체 이미지의 자연스러움과 로컬 텍스처의 일관성에 대한 객관적인 평가를 제공합니다.
3.3. Objective function
학습 단계에서는 세 가지 손실 함수의 조합을 사용합니다.
이들은 Adam Optimizer [16]를 사용하여 역전파를 통해 공동으로 최적화됩니다.
각 손실 함수를 다음과 같이 간략하게 설명합니다.
재구성 손실은 합성된 이미지와 Ground Truth 사이의 픽셀 단위 L1 거리를 계산합니다.
네트워크가 흐릿한 출력을 생성하도록 강요하더라도 네트워크가 텍스처 색상과 저주파 세부 정보를 대략적으로 예측하도록 안내합니다.
(1)
여기서 N은 샘플 수, x는 Ground Truth, y는 생성된 출력 이미지, W, H, C는 각각 이미지의 너비, 높이 및 채널 크기입니다.
적대 손실은 훈련 단계에서 도입 된 PGGAN 판별 기 네트워크 D의 두 경로에 의해 계산됩니다.
생성기 G와 D는 arg minG maxD LGAN (G, D)을 해결하여 동시에 훈련됩니다. 여기서 x ~는 손상된 이미지입니다.
Joint loss function는 학습 단계에서 사용되는 목표를 정의합니다.
손실 함수의 각 구성 요소는 계수 λ에 의해 제어됩니다.
(3)
여기서 Lg adv 및 Lp adv는 PGGAN의 두 출력 경로에 해당하는 방정식 2의 LGAN을 참조합니다 (그림 3 참조).
Joint loss function L, Lg adv의 비공유 G-GAN 레이어, Lp adv의 비공유 P-GAN 레이어 및 Lg adv + Lp adv의 공유 레이어에 의해 생성기 매개 변수를 업데이트합니다.
4. Results
In this section, we evaluate the performance of our method and compare PGGAN with the recent inpainting methods through ablation studies, quantitative measurements, perceptual scores and visual evaluations.
이 섹션에서는 절제 연구, 정량적 측정, 지각 점수 및 시각적 평가를 통해 우리 방법의 성능을 평가하고 PGGAN을 최근의 인페인팅 방법과 비교합니다.
4.1. Datasets
-Paris Street View [5]에는 14900 개의 교육 이미지와 파리에서 수집 한 100 개의 테스트 이미지가 있습니다.
비교 및 절제 연구는 대부분이 데이터 세트에서 수행됩니다.
-Google Street View [38]는 62058 개의 고화질 이미지로 구성됩니다. 10개 부분으로 나뉩니다.
첫 번째와 열 번째 부분은 테스트 세트로 사용하고, 아홉 번째 부분은 유효성 검사에 사용하며 나머지 부분은 교육 세트에 포함됩니다.
이런 식으로 46200 개의 이미지가 훈련에 사용됩니다.
-Places [41]는 거의 8백만 개의 훈련 이미지가있는 시각적 작업을위한 가장 큰 데이터 세트 중 하나입니다.
세트에 상당한 양의 데이터가 있으므로 외부 네트워크의 일반화 가능성을 테스트하는 데 도움이됩니다.
4.2. Training details and implementation
모든 실험 설정은 GPU를 지원하는 Pytorch 1을 사용하여 구현됩니다.
당사의 네트워크는 4 개의 NVIDIATM Tesla P100 및 K40 그래픽 카드에 대해 별도로 교육됩니다.
생성적 ResNet 구현에서 비교 가능한 결과를 얻기 위해 type-a 블록이 사용될 때 3 개의 서브 샘플링 블록을 사용합니다.
확장 conv(Dilated convolution)가 잔차 블록에 사용되는 경우, 확장(dilation) 매개 변수를 사용하면 서브 샘플링없이 더 넓은 영역에 도달 할 수 있으므로 서브 샘플링이 2로 설정됩니다.
PGGAN 판별기로 네트워크를 훈련하는 동안 방정식 3에서 λ1 = 0.995, λ2 = 0.0025 및 λ3 = 0.0025를 설정합니다.
4.3. Ablation study
도입된 다양한 성분의 효과를 분석하기 위해 한번에 하나씩 매개 변수를 변경하여 여러 실험을 수행합니다.
먼저 동일한 생성기 네트워크 ResNet에서 서로 다른 판별자 아키텍처를 비교합니다.
모든 네트워크는 큰 변화가 없을 때까지 훈련됩니다.
그림 4는 샘플 결과를 보여줍니다. 예를 들어 마지막 열에서 볼 수 있으며 창 세부 정보는 메서드에 따라 다르게 재구성됩니다.
예상대로 G-GAN 판별기는 거친 이미지 구조만 완성하는 데 도움이됩니다.
PatchGAN은 G-GAN에 비해 상당한 개선을 보여 주지만, 재구성된 이미지는 여전히 글로벌 오해의 징후를 가지고 있습니다.
PGGAN은 로컬 및 글로벌 구조를 모두 혼합하고 시각적으로 더 그럴듯한 결과를 제공합니다.
판별기 설계와 함께 이미지 합성의 또다른 중요한 요소는 생성기 네트워크 모델에 사용되는 계층입니다.
이 연구에서는 부드러운 출력을 제공하기 때문에 전치 컨볼루션보다 interpolated conv을 선호합니다.
interpolated conv의 영향을 설명하기 위해 그림 5에 나와있는 업샘플링 레이어를 제외하고 동일한 PGGAN을 테스트했습니다.
interpolated conv의 영향은 그림 5의 결과를 확대하여 명확하게 관찰할 수 있습니다.
Transposed conv으로 인해 발생하는 바둑판 인공물이라고도하는 노이즈를 제거합니다.
그러나, 전치 컨볼루션으로 얻은 더 일관된 구조를 가진 예가 있습니다 (예 : 그림의 첫 번째 열 참조).
이러한 계층은 각각 생성기를 솔루션 공간의 다른 지점으로 보내는 고유한 특성을 가지고 있습니다.
이 연구의 범위에 포함되지 않는 두 계층 모두 추가로 분석해야합니다.
4.4. Comparative evaluation
PGGAN과 ResNet (PGGAN-Res) 및 PGGAN과 ResNet-Dilated convolution (PGGANDRes)을 현재의 세가지 인페인팅 방법과 비교합니다.
(i) CE-ContextEncoder는 전체 이미지가 재구성되는 256x256 이미지와 함께 작동하도록 [25]부터 적용되었습니다.
(ii) 256x256 이미지 이상의 GLGAN [11];
(iii) 512x512 이미지 이상의 NPS (Neural Patch Synthesis) [34].
- 속도 : PGGAN과 GLGAN은 모두 end-to-end 텍스처 생성기이므로 계산 시간은 밀리 초 단위로 비슷합니다.
반면에 NPS 접근 방식은 local texture constraint(로컬 텍스처 제약)으로 인해 몇 초가 걸립니다.
PSNR과 SSIM [32]은 이미지 생성 커뮤니티에서 가장 많이 사용되는 두 가지 평가 기준이지만 품질 평가에는 충분하지 않은 것으로 알려져 있습니다.
그럼에도 불구하고 우리의 방법을 현재 작업과 정량적으로 비교하기 위해 PSNR, SSIM, 평균 L1, PGGAN이 512x512 및 256x256 이미지에 대한 모든 측정에서 개선을 달성했다고보고합니다.
이러한 결과는 다음에 제시된 지각 및 시각적 평가에서도 뒷받침됩니다.
4.5. Perceptual evaluation
PGGAN-Res, PGGAN-DRes, CE 및 GLGAN 간의 지각 평가를 수행합니다.
우리 실험실의 12 명의 투표자들은 원본 이미지의 자연스러움 (자연스럽지 않음 / 자연스럽지 않음)과 방법의 페인팅 결과를 평가했습니다.
전체적으로 각 테스터는 무작위로 정렬 된 500 개의 이미지 (파리 스트리트 뷰 유효성 검사 세트의 5 x 100 개 이미지)를 평가했습니다.
그림 6은 각 방법에 대해 사용자에 대해 누적 된 자연성 점수의 상자 그림을 보여줍니다.
결과는 128x128 이미지에 대해 제시된 CE가 [25]에서도보고 된 것처럼 256x256 테스트 이미지에서 성능이 낮다는 것을 나타냅니다.
유사하게 수행 된 나머지 방법은 PGGAN에 대해 약간 더 나은 점수를 얻었습니다.
이는 글로벌 구조와 함께 로컬 일관성을 더욱 강조하면 더 그럴듯한 텍스처를 생성하는 데 도움이 될 수 있음을 시사합니다.
4.6. Visual results
일반적인 Paris Street View 데이터 세트에서 PGGAN, NPS 및 GLGAN의 시각적 성능을 비교합니다.
그림 7과 8은 각각 256x256 및 512x512 크기의 이미지에 대한 결과를 보여줍니다.
일부 실패 사례 결과는 그림 9에서 볼 수 있습니다.
Places 및 Google Street View 데이터 세트 2의 결과는 그림 10과 11에 나와 있습니다.
5. Conclusion
이 논문의 이미지 인 페인팅 결과는 PatchGAN과 같은 패치 기반 기술을 기존 GAN 네트워크와 함께 낮은 수준의 병합 후 높은 수준으로 분할하면 이미지의 전체적인 특성을 준수하면서 이미지 텍스처의 로컬 연속성을 획득하는 데 도움이 될 수 있음을 시사합니다.
이 합병은 현재의 도색 방법보다 시각적으로 양적으로 더 나은 결과를 생성합니다.
그러나 Generative 모델링 문제와 밀접한 관련이있는 인페인팅 문제는 아직 더 발전 할 여지가 있습니다.
6. Preference
[1]github.com/kaylode/image-inpainting
'비지도학습 > GAN' 카테고리의 다른 글
A Style-Based Generator Architecture for Generative Adversarial Networks, 2019(버전 1) (0) | 2021.03.02 |
---|---|
[논문]DiscoFaceGAN,2020 (0) | 2021.02.25 |
pix2pixHD,2015 (0) | 2021.02.09 |
[11주차] StarGAN v2: Diverse Image Synthesis for Multiple Domains, 2020 (0) | 2021.01.28 |
[2주차] GAN (수정중) (0) | 2021.01.28 |