生成对抗网络の简单入门 | GAN | SLie's Blog|琴弦之轮

原始论文：Generative Adversarial Networks, https://arxiv.org/abs/1406.2661

GAN怎么开干(gan)

生成对抗网络（Generative Adversarial Networks，GAN）主要由两个神经网络构成，分别是生成器 $G$ （Generator）和判别器 $D$ （Discriminator）。

生成器的目标是生成服从于真实数据分布的样本，而判别器的目标则是区分输入的数据是真实数据还是生成数据。

可见，二者的训练目标的存在对抗性的，而二者也正是通过这样不断的对抗训练——极小极大博弈（Minimax Game），使得模型能在所有可能的 $G$ 和 $D$ 中，求出唯一的均衡解：最终 $G$ 足以生成与训练样本相同分布的数据，相对地， $D$ 的判别结果则稳定在了 $1/2$ 。

根据GAN的基本原理，可简单绘制出其基本的模型结构。

对于服从于任意的某种分布 $P_z(\boldsymbol z)$ 的噪声 $\boldsymbol z$ ，经过生成器 $G$ 后得到数据 $G(\boldsymbol z)$ 。我们假设 $G(\boldsymbol z)$ 服从的分布为 $P_G(G(\boldsymbol z))$ ，而真实数据（即数据集给出的数据）服从于 $P_{data}(\boldsymbol x)$ ，所以我们需要训练使得两种分布尽可能地一致。

【插入图片】

数学表示与证明

信息熵

信息熵（Information Entropy）是度量样本集合纯度最常用的一种指标。

对于离散随机变量 $X$ 的一个事件 $X=x_i$ ，定义其 $\textbf{信息量}$ * 为：

$\begin{aligned} I(x_i)=-\log(p(x_i)),\quad \forall i,\; x_i\in\chi,\;i=1,2,...,n \end{aligned}$

其中 $\chi=\{x_1,x_2,\cdots,x_n\}$ 为随机变量 $X$ 可能的取值范围。 $p(x_i)=P\{X=x_i\}$ 表示事件 $X=x_i$ 发生的概率。

离散随机变量 $X$ 的 $\textbf{信息熵}$ 被定义为其事件信息量的期望：

$\begin{equation*} H(X)=-\mathbb{E}(\log p(x))=-\sum_{i=1}^np(x_i)\log(p(x_i)) \end{equation*}$

规定：当 $p(x_i)=0$ 时， $p(x_i)\log(p(x_i))=0$ 。

若信息熵 $H(X)$ 越小，则说明 $X$ 的纯度越高，事件发生的情况更稳定。

相对熵/KL散度

$\textbf{相对熵}$ （Relative Entropy），又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（Information Divergence），是两个概率分布间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵的差值。
相对熵是一些优化算法，例如最大期望算法（Expectation-Maximization algorithm, EM）的损失函数。此时参与计算的一个概率分布为真实分布，另一个为理论（拟合）分布，相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

对于概率分布 $p(x),q(x)$ ，它们的 KL 散度为：

$\begin{equation*} KL(p||q)=\sum_{i=1}^np(x_i)\log\left(\frac{p(x_i)}{q(x_i)}\right) \end{equation*}$

https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/
非负矩阵分解（1）：准则函数及KL散度 - LeeLIn。 - 博客园 (cnblogs.com)

JS散度

为了解决KL散度非对称性的问题，在KL散度的基础上又提出了 $\textbf{JS散度}$ （Jensen-Shannon Divergence），作为另一种度量两个概率分布相似度的方法：

$\begin{equation*} JS(P||Q)=\frac12KL(P||M)+\frac12KL(Q||M) \end{equation*}$

其中， $\begin{aligned}M=\frac{P+Q}2\end{aligned}$ 。

https://www.cnblogs.com/MorStar/p/14882813.html

价值函数与证明

为了指导实现 $G$ 与 $D$ 的参数调整，我们需要定义适当的价值函数 $V(G,D)$ 用来训练，Wang等人则是通过引入信息熵的概念来实现其定义。

不难得出，判别器对真实数据的信息熵 $\mathbb{E}_{x\sim P_{data}(x)}[\log D(x)]$ 越大则表示判别器 $D$ 识别真实数据的能力越强，而判别器对生成数据的信息熵 $\mathbb{E}_{z\sim P_z(z)}[\log D(G(z))]$ 越小则表示判别器 $D$ 将假数据误判成真数据的可能性越低；相反，若它的值越大则说明 $D$ 容易误判，也即 $G(z)$ 更接近真实数据。于是，可得到优化目标函数如下：

$\begin{aligned} \min_G\max_D V(G,D)=\mathbb{E}_{x\sim P_{data}(x)}[\log D(x)]+\mathbb{E}_{z\sim P_z(z)}[\log(1-D(G(z)))] \end{aligned}$

其中，将 $\mathbb{E}_{z\sim P_z(z)}[\log(1-D(G(z)))]$ 代替 $\mathbb{E}_{z\sim P_z(z)}[\log D(G(z))]$ 可以更好统一函数。

上述目标函数的求解过程主要分为两步：

固定 $G$ 优化判别器 $D$ ，使得最终得到的判别器 $D^*=\arg\max\limits_{D}V(G,D)$ 。
固定 $D$ 优化生成器 $G$ ，使得最终得到的生成器器 $G^*=\arg\min\limits_{G}V(G,D)$ 。
首先对目标函数 $V(G,D)$ 化简如下，

$\begin{aligned} V(G,D)&=\mathbb{E}_{x\sim P_{data}(x)}[\log D(x)]+\mathbb{E}_{z\sim P_z(z)}[\log(1-D(G(z)))]\\ &=\int_xP_{data}(x)\log D(x)\mathrm dx+\int_zP_z(z)\log(1-D(G(z)))\mathrm dz\\ &=\int_xP_{data}(x)\log D(x)\mathrm dx+\int_xP_G(x)\log(1-D(x))\mathrm dx\\ &=\int_x\left[P_{data}(x)\log D(x)+P_G(x)\log(1-D(x))\right]\mathrm dx \end{aligned}$

从而求解 $\max\limits_{D}V(G,D)$ 等价于对其被积函数，记为 $\Phi(D)$ 做优化。有

$\begin{aligned} &\frac{\mathrm d\Phi(D)}{\mathrm dD}=\frac{P_{data}(x)}{D(x)}-\frac{P_G(x)}{1-D(x)}=0\\ \\\quad\Rightarrow \;&D^*(x)=\frac{P_{data}(x)}{P_{data}(x)+P_G(x)} \end{aligned}$

将 $D^*$ 带入 $V(G,D)$ ，求解 $\min\limits_{G}V(G,D^*)$ 。此时

$\begin{aligned} V(G,D^*)&=\int_x\left[P_{data}(x)\log \frac{P_{data}(x)}{P_{data}(x)+P_G(x)}+P_G(x)\log \frac{P_{G}(x)}{P_{data}(x)+P_G(x)}\right]\mathrm dx\\ &=-2\log2+KL\left(P_{data}\bigg|\bigg|\frac{P_{data}+P_G}2\right)+KL\left(P_{G}\bigg|\bigg|\frac{P_{data}+P_G}2\right)\\ &=-2\log2+2JS(P_{data}||P_G) \end{aligned}$