DCGAN Review
💜UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS,2016
- DCGAN 모델 - 모델의 목표와 구조
- DCGAN의 특징 - 주요 개념, DCGAN의 이점과 문제점 & 개선 방법
0. 요약
최근 몇 년 동안 컨볼 루션 네트워크 (CNN)를 사용한지도 학습은 컴퓨터 비전 애플리케이션에서 크게 채택되었습니다. 상대적으로 CNN을 통한 비지도 학습은 덜 주목 받았습니다. 이 작업에서 우리는 지도 학습과 비지도 학습을위한 CNN의 성공 간 격차를 해소합니다. Deep Convolutional Generative라는 CNN 클래스를 소개합니다. 특정 구조적 제약이 있는 적대적 네트워크 (DCGAN) 비지도 학습에 대한 강력한 후보임을 보여줍니다. 다양한 이미지 데이터 세트의 학습을 통해서 우리는 CNN 적대 쌍이 객체 부분에서 생성기와 판별 기의 scene의 표현 계층 구조를 학습한다는 설득력있는 증거를 보여줍니다. 또한 우리는 배운 새로운 작업을 위한 기능-일반적인 이미지 표현으로 적용 가능성을 보여줍니다.
1. 인트로
• 우리는 대부분의 환경에서 안정적으로 학습하게 만들어주는 신경망 GAN의 구조적 토폴로지에 대한 일련의 제한을 제안하고 평가함
• 다른 비지도 알고리즘과 함께 경쟁력있는 퍼포먼스를 보여주면서 이미지 분류 작업을 위한 학습된 판별기들을 사용
• GAN에 의해 학습된 필터를 시각화하고 empirical하게 특정한 물체를 그리기위해 학습된 필터를 보여준다.
• 생성기에 흥미로운 벡터 산술 속성이 있어 생성된 샘플의 많은 의미적 특성을 쉽게 조작 할 수 있음을 보여줍니다.
2. 관련 논문
2.1 라벨링되지않은 표현학습
비지도 학습은 일반적인 컴퓨터 비전에서 연구 뿐만 아니라 이미지의 맥락에서 상당히 잘 연구된 문제입니다. 비지도적 표현에 대한 고전적인 접근 방식 학습은 데이터에 대한 클러스터링 (예 : K- 평균 사용)을 수행하고 클러스터를 활용하여 분류 점수를 향상시킴. 이미지의 맥락에서 이미지의 계층적 클러스터링을 수행 할 수 있습니다. 강력한 이미지 표현을 학습하기위한 패치 (Coates & Ng, 2012). 또 다른 인기있는 방법인 오토인코더 (컨볼루션 방식, 스택 형 (Vincent et al., 2010))를 훈련하여 what과 코드의 구성 요소 (Zhao et al., 2015), 사다리 구조 (Rasmus et al., 2015)) 이미지를 압축 코드로 인코딩하고 코드를 디코딩하여 이미지를 정확하게 재구성합니다. 이러한 방법은 또한 이미지 픽셀에서 좋은 특징 표현을 학습하는 것으로 나타났습니다. 깊은 신념 네트워크 (Lee et al., 2009)도 계층적 표현에 대한 학습에서 잘 작동하는 것으로 나타났습니다.
2.2 자연스러운 이미지 생성
생성 이미지 모델은 잘 연구되었으며, 파라메트릭 및 비파라메트릭의 두 가지 범주로 분류됩니다. 비모수적 모델은 종종 기존 이미지의 데이터베이스에서 이미지의 패치 매칭을 수행하며 텍스처 합성에 사용되었습니다 (Efros et al., 1999), 초 고해상도 (Freeman et al., 2002) 및 in-painting (Hays & Efros, 2007). 이미지 생성을 위한 파라메트릭 모델이 광범위하게 탐색되었습니다 (예 : MNIST 숫자 또는 텍스처 합성 (Portilla & Simoncelli, 2000)). 그러나 현실 세계에 대한 자연스러운 이미지 생성 최근까지 많은 성공을 거두지 못했습니다. 에 대한 변이 샘플링 접근법 이미지 생성 (Kingma & Welling, 2013)은 약간의 성공을 거두었지만 샘플은 종종 어려움을 겪습니다. 흐릿한 것에서. 또 다른 접근 방식은 반복적 인 순방향 확산 프로세스를 사용하여 이미지를 생성합니다. (Sohl-Dickstein et al., 2015). Generative Adversarial Networks (Goodfellow et al., 2014) 생성 시끄럽고 이해하기 어려운 이미지. 이것에 대한 라플라시안 피라미드 확장 접근 방식 (Denton et al., 2015)은 더 높은 품질의 이미지를 보였지만 여전히 물체로 인해 어려움을 겪었습니다. 여러 모델을 연결할 때 발생하는 노이즈로 인해 흔들리는 것처럼 보입니다. 순환 네트워크 접근 방식 (Gregor et al., 2015)과 deconvolution 네트워크 접근 방식 (Dosovitskiy et al., 2014)은 최근에는 자연스러운 이미지를 생성하는 데 성공했습니다. 그러나 그들은 감독 된 작업을위한 생성기.
2.3 CNN의 내부에 대한 시각화
신경망 사용에 대한 끊임없는 비판 중 하나는 신경망이 거의없는 블랙 박스 방법이라는 것입니다. 인간이 소비 할 수있는 간단한 알고리즘의 형태로 네트워크가하는 일에 대한 이해. 에서 CNN의 맥락, Zeiler et. al. (Zeiler & Fergus, 2014)는 디콘 볼 루션을 사용하여 최대 활성화를 필터링하면 각 회선 필터의 대략적인 목적을 찾을 수 있습니다. 네트워크. 마찬가지로 입력에 경사 하강 법을 사용하면 이상적인 이미지를 검사 할 수 있습니다. 필터의 특정 하위 집합을 활성화합니다 (Mordvintsev et al.).
3. Approach and model architecture 접근방법과 모델의 구조
첫번째는 네트워크가 자체 spatial 다운샘플링을 학습하도록하면서 결정론적인 공간풀링함수를 strided 신경망으로 대체하는 전체 신경망네트워크이다.
두번째는 신경망이 특징위에서 FCL를 없애는 트렌드이다.
세번째는 zero mean과 unit variance를 갖도록하는 각각의 유닛에 대한 입력을 정규화함으로서 학습을 안정시키는 배치 정규화이다.
이것은 불안정한 초기화문제와 gradient flow에 대한 더 깊은 모델의 학습읃 도우면서 학습시 발생하는 문제들을 해결하도록 돕는다.
렐루 활성화 함수는 탄 함수를 사용하는 출력층을 제외하고 생성기에서 사용됨
Architecture guidelines for stable Deep Convolutional GANs
안정적인 DCGAN을 위한 구조 가이드라인
• Replace any pooling layers with strided convolutions (discriminator) and fractional-strided convolutions (generator). strided 신경망(판별기)과 fractional-strided 신경망(생성기)으로 모든 pooling layer를 대체
• Use batchnorm in both the generator and the discriminator. 생성기와 판별기 둘다에 batchnorm을 사용
• Remove fully connected hidden layers for deeper architectures. 더 깊은 구조를 위해서 FCL을 제거
• Use ReLU activation in generator for all layers except for the output, which uses Tanh. 생성기 모든 층에서 렐루 활성화 함수를 사용함(출력층에서는 예외로 탄 함수 사용)
• Use LeakyReLU activation in the discriminator for all layers. 판별기의 모든 층에서 리키렐루 활성화함수를 사용
4. Adversarial 학습에 대한 디테일
We trained DCGANs on three datasets, Large-scale Scene Understanding (LSUN) (Yu et al., 2015), Imagenet-1k and a newly assembled Faces dataset. Details on the usage of each of these datasets are given below. LSUN, Imagenet-1k, 얼굴 데이터를 사용하여 학습. 예시는 아래에 제공.
No pre-processing was applied to training images besides scaling to the range of the tanh activation function [-1, 1]. 탄 활성함수의 범위를 스케일링 할때를 제외하고는 이미지를 학습하는데 전처리는 사용되지 않음
All models were trained with mini-batch stochastic gradient descent (SGD) with a mini-batch size of 128. 모든 모델은 미니배치 SGD를 활용하여 학습(미니배치 사이즈는 128)
All weights were initialized from a zero-centered Normal distribution with standard deviation 0.02. 모든 가중치는 zero-center된 정규분포로 부터 초기화됨(standard deviation=0.02)
In the LeakyReLU, the slope of the leak was set to 0.2 in all models. 리키렐루에서 리크의 경사도는 모든 모델에서 0.2로 설정
While previous GAN work has used momentum to accelerate training, we used the Adam optimizer (Kingma & Ba, 2014) with tuned hyperparameters. 이전의 GAN에서는 학습을 가속화하기위해서 momentum을 사용했지만 우리는 튜닝된 파라미터와 함께 아담 옵티마이저를 사용했다.
We found the suggested learning rate of 0.001, to be too high, using 0.0002 instead. 우리는 학습률 0.001은 너무 높고 0.0002를 사용
Additionally, we found leaving the momentum term β1 at the suggested value of 0.9 resulted in training oscillation and instability while reducing it to 0.5 helped stabilize training. 게다가 우리는 모멘텀 베타1를 제안된 0.9의 값으로 두는것이 oscillation과 불안정을 초래했다.(0.5로 낮추자 학습이 안정화됨)
4.1 LSUN(Large Scale Scene Understanding)
As visual quality of samples from generative image models has improved, concerns of over-fitting and memorization of training samples have risen.
생성이미지모델로부터의 샘플의 시각적인 질이 향상되면서 오버피팅과 학습 샘플의 memorization에 대한 염려
To demonstrate how our model scales with more data and higher resolution generation, we train a model on the LSUN bedrooms dataset containing a little over 3 million training examples.
더 많은 데이터와 높은 resolution 생성으로 우리의 모델을 demonstrate하기위해, 우리는300만 학습셋이 조금 넘는 LSUN 침실 데이터셋으로 모델을 학습시킨다.
Recent analysis has shown that there is a direct link between how fast models learn and their generalization performance (Hardt et al., 2015).
최근 분석은 모델의 학습 속도와 생성퍼포먼스가 어떻게 직접적인 관련이 있는지를 보여줌
We show samples from one epoch of training (Fig.2), mimicking online learning, in addition to samples after convergence (Fig.3), as an opportunity to demonstrate that our model is not producing high quality samples via simply overfitting/memorizing training examples.
우리는 우리의 모델이 오버피팅이나 학습 샘플을 암기하는 등의 것을 통해 높은 퀄리티의 샘플을 생성하는 것이 아니라는 것을 보여주기위해서 온라인 학습을 따라하면서 학습의 수렴이후의 샘플과 함께 학습의 한 에포크로 부터 샘플을 보여준다.
No data augmentation was applied to the images.
데이터 증강을 하지않음
4.1.1 Deduplication
To further decrease the likelihood of the generator memorizing input examples (Fig.2) we perform a simple image de-duplication process.
생성기가 입력에 대한 샘플을 외울 가능도를 더욱 낮추기위해서, 우리는 간단한 이미지 de-duplication 처리를한다.
We fit a 3072-128-3072 de-noising dropout regularized RELU autoencoder on 32x32 downsampled center-crops of training examples.
우리는 3072-128-3072의 잡음을 제거하는 드롭아웃을 피팅한다.(드롭아웃은 학습샘플의 32x32로 다운샘플링된 센터크롭을 렐루 인코더를 정규화)
The resulting code layer activations are then binarized via thresholding the ReLU activation which has been shown to be an effective information preserving technique (Srivastava et al., 2014) and provides a convenient form of semantic-hashing, allowing for linear time de-duplication .
결과 코드 활성화 층은 효과적으로 정보저장 기술을 보여주고 선형 시간 de-duplication이 되도록 시맨틱 해싱의 편리한 형식을 제공하는 렐루 활성화함수를 통해서 이진화됨
Visual inspection of hash collisions showed high precision with an estimated false positive rate of less than 1 in 100.
해쉬 충돌의 시각적 inspection은 평가된 false-positive의 경우를 100중에 1 이하가 되도록 높은 precision을 보여줬다 Additionally, the technique detected and removed approximately 275,000 near duplicates, suggesting a high recall.
게다가, 그 기술은 높은 리콜을 내면서 대략 27500에 가까운 duplicates를 추적하고 제거했다.
<<사진 추가>>
4.1.2 Faces
We scraped images containing human faces from random web image queries of peoples names.
우리는 사람의 이름에 대한 랜덤한 웹의 이미지 쿼리로 부터의 사람 얼굴이 포함된 이미지를 수집했다
The people names were acquired from dbpedia, with a criterion that they were born in the modern era.
사람들의 이름은 dbpedia로부터 얻음(현대 시대에 태어난 사람들 중에서)
This dataset has 3M images from 10K people.
만명에 대한 300만장의 이미지를 갖고있는 데이터셋
We run an OpenCV face detector on these images, keeping the detections that are sufficiently high resolution, which gives us approximately 350,000 face boxes.
우리는 추적된 이미지의 높은 해상도를 충분히 유지하면서 이 이미지에 opencv 얼굴 추적돌림(350000의 얼굴 바운딩박스가 추출됨)
We use these face boxes for training. No data augmentation was applied to the images.
우리는 이 얼굴 박스들을 학습에 사용하며 데이터 증강은 이미지에 적용되지않음
4.1.3 Imagenet-1k
We use Imagenet-1k (Deng et al., 2009) as a source of natural images for unsupervised training.
우리는 비지도학습의 자연스러운 이미지의 원천으로서 이미지넷 1k를 사용한다
We train on 32 × 32 min-resized center crops. No data augmentation was applied to the images.
우리는 32x32로 민-리사이즈된 센터크롭으로 학습함. 이미지 증강은 안함
5. Empirical validation
5.1 Classifying CIFAR-10 using GANs as a feature extractor 특징추출으로 GAN을 사용하여 CIFAR-10을 분류하기
One common technique for evaluating the quality of unsupervised representation learning algorithms is to apply them as a feature extractor on supervised datasets and evaluate the performance of linear models fitted on top of these features. 비지도 표현 학습 알고리즘의 퀄리티를 평가하는 하나의 공통적이 기술은 지도학습적 데이터셋에 특징 추출로서 적용하는것, 그리고 이 특징에 피팅된 선형모델들에 대한 퍼포먼스를 평가하는것
On the CIFAR-10 dataset, a very strong baseline performance has been demonstrated from a well tuned single layer feature extraction pipeline utilizing K-means as a feature learning algorithm.시파10 데이터셋에 하나의 아주 강력한 베이스라인 퍼포먼스는 특징학습에 kmeans를 활용하면서 잘 튜닝된 싱글레이어 특징추출 파이프라인으로부터 보여짐
When using a very large amount of feature maps (4800) this technique achieves 80.6% accuracy. 4800의 특징 맵을 사용하여 80.6퍼의 정확도를 얻을수있음
<<사진>>
5.2 Classifying SVHN Digits using GANs as a feature Extractor
Gan을 특징추출으로서 사용하여 SVHN Digits를 분류 On the StreetView House Numbers dataset (SVHN)(Netzer et al., 2011), we use the features of the discriminator of a DCGAN for supervised purposes when labeled data is scarce.
SVHN(길거리 집 데이터셋)에서 우리는 라벨링된 데이터가 희소성의 띌때 지도학습적 목적을 위해 DCGAN의 판별기의 특징들을 사용한다.
Following similar dataset preparation rules as in the CIFAR-10 experiments, we split off a validation set of 10,000 examples from the non-extra set and use it for all hyperparameter and model selection.
시파10 실험에서 비슷한 데이터셋 준비하는 룰은 다음과 같다.(논-엑스트라부터 10,000장의 validation set를 나누고 모든 하이퍼파라미터과 모델셀렉션을 위해 사용한다)
6. Investigating and visualizing the internals of the networks 네스워크의 내부사항은 조사하고 시각화하기
We investigate the trained generators and discriminators in a variety of ways.
우리는 학습된 생성기들과 판별기들을 여러 방법으로 조사한다,
We do not do any kind of nearest neighbor search on the training set.
우리는 학습셋에 nearest neighbor search방법을 사용하지않음
Nearest neighbors in pixel or feature space are trivially fooled (Theis et al., 2015) by small image transforms.
픽셀이나 특징 공간에서의 최근접 이웃은 작은 이미지 transforms에 의해서 소소하게 속여짐
We also do not use log-likelihood metrics to quantitatively assess the model, as it is a poor (Theis et al., 2015) metric.
우리는 또한 양적으로 모델을 평가하기위해서 log가능도 행렬을 사용하지않음(poor metric이기때문에)
<<사진>>
6.1 Walking in the latent space 잠재공간에서 워킹 The first experiment we did was to understand the landscape of the latent space.
첫 실험은 잠재공간의 landscape을 이해하기위해서였음
Walking on the manifold that is learnt can usually tell us about signs of memorization (if there are sharp transitions) and about the way in which the space is hierarchically collapsed.
학습된 매니폴드를 워킹하는것은 (예리한 변화가 있을때) 암기와 그 공간이 계층적으로 무너진것에 대한 사인에 대해서 말함
If walking in this latent space results in semantic changes to the image generations (such as objects being added and removed), we can reason that the model has learned relevant and interesting representations.
이 잠재공간을 워킹하는 것이 이미지 생성에 대하여 semantic한 변화를 가져온다면, 우리는 모델이 관련된 흥미로운 표현을 배웠다고 할수있다
The results are shown in Fig.4.
<<사진>>
6.2 Visualizing the discriminator features
판별기 특징들 시각화하기 Previous work has demonstrated that supervised training of CNNs on large image datasets results in very powerful learned features (Zeiler & Fergus, 2014).
이전의 논문들은 대규모 데이터셋의 CNN의 지도학습이 아주 강력하게 학습된 특징들을 가져온다고 했다
Additionally, supervised CNNs trained on scene classification learn object detectors (Oquab et al., 2014). 게다가ㅏ 지도학습된 CNN은 객체추척기에서 학습된 장면분류에서 학습
We demonstrate that an unsupervised DCGAN trained on a large image dataset can also learn a hierarchy of features that are interesting.
우리는 대규모 이미지 데이터셋에서 학습된 비지도DCGAN은 또한 흥미로운 특징을 가지는 계층도 학습한다
Using guided backpropagation as proposed by (Springenberg et al., 2014), we show in Fig.5 that the features learnt by the discriminator activate on typical parts of a bedroom, like beds and windows.
역전오차파를 사용하면서 우리는 그림 5와 같이 판별기에서 학습된 특징은 침대와 창문같은 침실의 특정 부분을 활성화한다.
For comparison, in the same figure, we give a baseline for randomly initialized features that are not activated on anything that is semantically relevant or interesting.
비교를 위해서 같은 그림에서 우리는 랜덤하게 초기화된 시맨틱적으로 관련이 있거나 흥미로운것에 활성화되지않은 특징들을 위해 베이스라인을 준다.
6.3 Manipulating the generator representation 생성기 표현에 대한 조정
6.3.1 forgetting to draw certain objects 특정 객체 그리기를 잊어버리기
In addition to the representations learnt by a discriminator, there is the question of what representations the generator learns.
판별기에 대해 학습한 표현들고 더불어, 생성기가 학습하는 표현에 대한 질문이 있다.
The quality of samples suggest that the generator learns specific object representations for major scene components such as beds, windows, lamps, doors, and miscellaneous furniture.
샘플의 퀄리티는 생성기가 특정 객체 표현에 주요한 장면 component를 학습한다고 함(창문, 램프,문 그리고 여러가지 잡다한 가구들과 같이)
In order to explore the form that these representations take, we conducted an experiment to attempt to remove windows from the generator completely.
이 표현이 가져오는 형태를 탐구해보기위해서, 우리는 생성기에서 창문을 완전히 제거하는 시도를 하는 실험을 진행
On 150 samples, 52 window bounding boxes were drawn manually.
150개의 샘플에서 52개의 창문에 대한 바운딩박스가 그려짐
On the second highest convolution layer features, logistic regression was fit to predict whether a feature activation was on a window (or not), by using the criterion that activations inside the drawn bounding boxes are positives and random samples from the same images are negatives.
두번째로 높은 신경망 층의 특징에서 특징활성화가 창문에 있는지 없는지 예측하기위해서 로지스틱 회귀를 피팅함 (그려진 바운딩박스 안의 활성화가 positive이고 샘플이미지로 부터의 랜덤샘플이 negative라는 기준을 사용하여)
Using this simple model, all feature maps with weights greater than zero ( 200 in total) were dropped from all spatial locations.
이 간단한 모델을 사용하여 가중치가 0보다 큰 모든 특징 맵들은 모든 공간적 위치에서 떨어졌다
Then, random new samples were generated with and without the feature map removal.
그러고나서 특정한 새로운 샘플들은 특징맵 제거를 적용 혹은 미적용하여 생성됨
The generated images with and without the window dropout are shown in Fig.6, and interestingly, the network mostly forgets to draw windows in the bedrooms, replacing them with other objects.
창문 드롭아웃이 적용 혹은 미적용된 생성된 이미지는 그림 6에서 볼수있고, 흥미롭게도 네트워크에서 침실에서 창문을 다른 물체로 대체하면서 창문 그리는것을 거의 잊는다.
6.3.2 vector arithmetic on face samples 얼굴 샘플에 벡터 연산
In the context of evaluating learned representations of words (Mikolov et al., 2013) demonstrated that simple arithmetic operations revealed rich linear structure in representation space.
학습된 단어의 표현을 평가하는 문맥에서 (Mikolov et al., 2013)논문은 간단한 계산은 표현 공간에서 풍부한 선형적 구조를 보여주는건 보여줬다.
One canonical example demonstrated that the vector(”King”) - vector(”Man”) + vector(”Woman”) resulted in a vector whose nearest neighbor was the vector for Queen.
한가지 예는 벡터("왕")-벡터("남자")+벡터("여자")는 Queen에 대한 벡터과 nearest neighbor인 벡터라는 결과를 가져왔다
We investigated whether similar structure emerges in the Z representation of our generators.
우리는 비슷한 구조가 우리의 생성기의 z 표현에 발생시키는지 조사했다
We performed similar arithmetic on the Z vectors of sets of exemplar samples for visual concepts.
우리는 시각적 콘셉트를 위한 예시 샘플의 모음에 대한 z 벡터에 비슷한 계산을 했다.
Experiments working on only single samples per concept were unstable, but averaging the Z vector for three examplars showed consistent and stable generations that semantically obeyed the arithmetic.
컨셉 당 하나의 샘플에 작업하는 실험은 불안정했지만 3개 샘플에 대한 z 벡터의 평균을 구하는 것은 일정하고 안정적으로 연산을 semantically 거스르지 않고 생성한다.
In addition to the object manipulation shown in (Fig. 7), we demonstrate that face pose is also modeled linearly in Z space (Fig. 8).
그림 7의 물체조작과 더불어, 우리는 얼굴의 포즈는 z 공간에 선형적으로 모델링됨.
These demonstrations suggest interesting applications can be developed using Z representations learned by our models.
이 주장은 우리의 모델으로 학습된 z 표현을 이용해서 흥미로운 적용이 많이 개발될수 있을것이라는 것을 제안
It has been previously demonstrated that conditional generative models can learn to convincingly model object attributes like scale, rotation, and position (Dosovitskiy et al., 2014).
그것은 최근 조건이 있는 생성모델은 확실히 스케일, 호전, 위치와 같은 물체 특징을 학습할 수 있다는 것 보여줌
This is to our knowledge the first demonstration of this occurring in purely unsupervised models.
이것은 순수하게 비지도 모델에서 발생하는 것이 첫 데모
Further exploring and developing the above mentioned vector arithmetic could dramatically reduce the amount of data needed for conditional generative modeling of complex image distributions.
위의 언급된 벡터 연산을 탐구하고 개발하면서 복잡한 이미지 분산에 대한 조건이 있는 생성모델링에 필요한 데이터의 양을 극적으로 줄인다.
7.Conclusion and future work We propose a more stable set of architectures for training generative adversarial networks and we give evidence that adversarial networks learn good representations of images for supervised learning and generative modeling.
우리는 GAN을 학습하기위한 더욱 안정적인 구조를 제안하고, 적대적 네트워크가 지도적이고 생섲적인 모델링에 대한 이미지 좋은 표현을 학습
There are still some forms of model instability remaining - we noticed as models are trained longer they sometimes collapse a subset of filters to a single oscillating mode.
모델에 아직 남아있는 불안정성도 몇개 있음 - 모델이 더 오래 학습할수록 필터들의 subset에서 싱글 oscillating 모드로 무너지기도함
Further work is needed to tackle this from of instability.
미래 논문은 이런 불안정한 형태의 문제를 다룰 필요가있음
We think that extending this framework to other domains such as video (for frame prediction) and audio (pre-trained features for speech synthesis) should be very interesting.
다른 도메인(비디오, 오디오)으로 이 프레임워크를 넓히는것도 재밌을듯
Further investigations into the properties of the learnt latent space would be interesting as well.
학습된 잠재공간의 properties에 대한 더욱 깊은 조사도 재밌을듯