从降维(Ⅳ)、压缩再到生成式模型：Introduction to AutoEncoders

基本介绍

1986 年，Rumelhart、Hinton 和 Williams 首次提出了自编码器（Autoencoder，AE），旨在学习以尽可能低的误差重建输入观测值 $\boldsymbol x_i$ 。

Rumelhart D E , Hinton G E , Williams R J .Learning Internal Representation by Error Propagation[M]. 1986.

定义与架构

Definition: An autoencoder is a type of algorithm with the primary purpose of learning an “informative” representation of the data that can be used for different applicationsa by learning to reconstruct a set of input observations well enough.

上述定义是 Bank, D., Koenigstein, N., and Giryes, R. 在他们的文章 Autoencoders, https://arxiv.org/abs/2003.05991 中给出的自编码器的定义。

我们需要明确的是，自编码器是一种无监督学习/自监督学习方法，而它学习到的潜在表示蕴含有输入数据的大量丰富的信息，可以用于各种其他下游任务。所以具体来说自编码器还属于一类表示学习方法，生成式自监督学习方法 ，还可以说，它实现了一种降维的作用。

一个自编码器的经典架构如下图所示：

通用自编码器架构

我们将输入的数据 $\bf x$ 通过编码器 $E(·)$ 进行编码，从而得到该数据的潜在特征¹ $\bf h$ ，而该特征又可以通过解码器 $D(·)$ 还原或者说重建出之前的输入数据，记为 $\tilde{\bf x}$ 。
显然有 $\tilde{\bf x}=D(\mathbf h)=D(E(\mathbf x))$ 。

为了使得重建的数据与原输入数据尽可能地相似，自动编码器最常用的损失函数就是均方误差 （MSE：mean squared error）或二进制交叉熵 （BCE：binary cross-entropy），具体取决于输入数据的性质。

在大多数经典架构中，Encoder 和 Decoder 都是神经网络，可以用成熟的梯度下降法进行训练。自然，这些可以很容易地用现有的深度学习框架（TensorFlow 或 PyTorch）实现。

注1：这里的潜在特征(Latent Feature) 亦可以叫做潜在编码(Latent Code)、潜在向量(Latent Vector)，或是潜在表示(Latent Represetation) 也可直接叫做表示(Represetation)，甚至嵌入(Embedding)。

深度学习中对经过神经网络处理后得来的、蕴含了输入数据的丰富信息的“变量”进行了许多不同的命名，但是它们的本质是一样的。

类比PCA

我们知道PCA是机器学习中最常见的数据降维算法，也属于无监督学习范畴。
在PCA中，我们将数据 $\bf x$ 乘以一个矩阵 $W$ 然后得到低维的表示 $\bf z$ ，而我们可以通过 $W^T\bf z$ 还原出数据 $\tilde{\bf x}$ 。通过极小化 $\bf x$ 与 $\tilde{\bf x}$ 之间的距离求解PCA。

事实上，机器学习中PCA可以通过对协方差矩阵进行特征值分解求得解析解（即变换矩阵 $W$ ）。关于PCA的问题详见本站文章：

PCA主成分分析|降维Ⅱ

https://qslie.top/posts/d6784fab

其实，PCA还可以从深度学习的角度来理解——可以将PCA理解为一类特殊的自编码器的训练过程，编码器和解码器由互为转置的权重矩阵 $W,W^T$ 给定，这是一个无偏置无激活函数的单层神经网络。中间的隐层输出就是自编码器学习到的低维向量表示，这一层也叫做瓶颈层（Bottleneck Layer），训练的方式就是利用梯度下降来极小化 $\bf x$ 与 $\tilde{\bf x}$ 之间的距离。

前馈自编码器

前馈自编码器（Feed-Forward Autoencoder，FFA）也可以称为普通自编码器（Vanilla Autoencoder）或深度自编码器（网络层堆叠较多的话）。它由具有特定结构的密集神经网络层组成。

下图展现的是由全连接层构成的前馈自编码器，图源： Amor, “Comprehensive introduction to Autoencoders,” ML Cheat Sheet, 2021
全连接层AE

经典的 FFA 架构层的数量为奇数（尽管不是强制性要求），并且与中间层对称。

具体地，每经过一层网络，新一层网络的神经元数量都会有所下降。中间层有着最少的神经元，这就是前面提到的「瓶颈」，我们也是在这一层得到其潜在表示的。随后对称地，每一层的神经元数量开始上升。在几乎所有的实际应用中，中间层之后的网络层都是中间层之前的镜像版本。中间层在及之前的所有层就构成了所谓的编码器。

降噪自编码器

降噪自编码器（Denoising Autoencoder²）可以使学习到的低维表示具备更高的鲁棒性，因为该方法让模型在学习重构数据的同时也学习到了如何去除数据中的噪声。

De-noising AE

具体原理是先在原始数据中添加噪声，然后将加噪的数据输入到自编码器中，要求输出的重构数据要尽可能与原来未加噪的数据接近。

注2：Vincent,Pascal, et al. “Extracting and composing robust features with denoising autoencoders.” ICML,2008.

卷积自编码器

卷积自编码器（Convolutional Autoencoder，CAE）在编码器和解码器中利用卷积层，使其适用于处理图像数据。通过利用图像中的空间信息，CAE可以比普通自动编码器更有效地捕获复杂的模式和结构，并完成图像分割等任务。

CNN自编码器

和CNN一样，前期的编码过程自编码器需要对原始图像进行卷积和池化等操作。而后续的解码过程，相应地需要实现反池化“Unpooling” 和反卷积“Deconvolution” 操作。

UnPooling

我们知道做池化操作时，比如利用 $2\times2$ 大小、步幅(stride)为 $2$ 的配置对 $16\times16$ 的特征图(矩阵)进行最大池化max pooling 。那么特征图将被分成 $4$ 组，然后从每组里面挑一个最大的部分出来，最终组成 $4\times4$ 的新特征图。如下图所示：

Unpooling

以右下角的特征图为例，它被分成 $4$ 组，其中蓝色这一组最大的是右上角的部分（白色柱形越高代表值越大），然后新图就变成原来的四分之一（上图右上方）。

在卷积自编码器中，一种常见的 Unpooling 方法是 在编码时记录下选取元素的位置，然后在重建时扩大特征图并在对应位置填上最大值，其余位置置零。
当然还有另一种方法是扩大后每组每个位置都填充最大值。

Deconvolution

为了理解反卷积，我们以一维数据的卷积为例探讨其本质行为。

Convolution	Deconvolution

如上图所示，以大小是 $5$ 的1D特征图为例，假设卷积核的大小是 $3$ ，步幅是 $1$ ，那么一个 convolution 相当于每 $3$ 个元素做一次加权求和得到输出特征图的其中一个元素，然后滑动一个单位，下一组 $3$ 元素共享权重（图中的红蓝绿三条线）地再一次加权求和，以此类推。

最终我们得到大小是 $3$ 的输出特征图。分析每个元素值的来源，1号元素的值来源于输入特征图的前3个元素(1~3)；2号元素的值来源于输入特征图的 2~4 元素；以此类推。
要想 deconvolution 出大小为 $5$ 的特征图，我们就需要反过来按照这个逻辑分配这5个元素的来源了。也就是上图中 deconvolution 的左图。而这个过程等价于上下填充了两个0值元素之后的卷积操作！

也就是说，Deconvolution某种程度上也是一种Convolution。

稀疏自编码器

稀疏自编码器（Sparse Autoencoders）通过向损失函数添加稀疏性惩罚项约束强迫潜在表示具备稀疏性，从而实现更高效、更稳健的特征提取。

具体来说，常使用的惩罚项由 KL散度 给出。

待更：稀疏自编码器-CSDN博客
 [自编码器] [稀疏自编码器] Auto Encoder原理详解 - virter - 博客园 (cnblogs.com)
Introduction to autoencoders. - jeremyjordan.me
Machine Learning|稀疏编码和矩阵分解_华北小龙虾的博客-CSDN博客
 『ML笔记』深入浅出字典学习1(Dictionary Learning)-CSDN博客

事实上，从它的名字——稀疏自编码器就能得出，其渊源是机器学习中的稀疏编码和字典学习领域。详见本站文章：

稀疏编码与字典学习

https://qslie.top/posts/(addlink)

变分自编码器

当我们欲将训练的解码器看作是某种”生成器“，使得潜在表示空间中随机生成的向量也能解码出某种图像或与原数据相同类型的数据时，原始的自编码器算法就很难有效、可控地完成任务了。这是因为原始的自编码器 Latent Space 往往是离散的，无法从该空间中任意采样并 decode 出有意义的输出（如下图所示）。

变分自编码器（Variational Auto-Encoders，VAE）作为深度生成模型的一种形式，是由 Kingma 等人于 2014 年提出的基于变分贝叶斯（Variational Bayes，VB）推断的生成式网络结构。与传统的自编码器通过数值的方式描述潜在空间不同，它以概率的方式描述对潜在空间的观察，在数据生成方面表现出了巨大的应用价值。

生成对抗网络の简单入门 | GAN

https://qslie.top/posts/471ef1b1

VAE一经提出就迅速获得了深度生成模型领域广泛的关注，并和生成对抗网络（Generative Adversarial Networks，GAN）被视为无监督式学习领域最具研究价值的方法之一，在深度生成模型领域得到越来越多的应用。

变分推导

VAE

如上图所示，VAE 的目标是希望将输入 $\mathbf x$ 编码得到隐变量 $\mathbf z$ ，这个隐变量服从于某种真实的先验分布 $p_{\theta^*}(\mathbf z)$ 。进而，在该分布空间中采样出一个样本 $\mathbf z^{(i)}$ 后，我们可以通过条件概率 $p_{\theta^*}(\mathbf x\vert \mathbf z=\mathbf z^{(i)})$ 生成得到对应的 $\mathbf x^{(i)}$ 。其中，下标 $\theta^*$ 为分布 $p$ 的最优参数。

为了优化得到最优参数，我们考虑通过极大似然估计（MLE）：

$\begin{aligned} \theta^{*} &= \arg\max_\theta \prod_{i=1}^n p_\theta(\mathbf{x}^{(i)})\\ & = \arg\max_\theta \sum_{i=1}^n \log p_\theta(\mathbf{x}^{(i)}) \end{aligned}$

这里待优化参数 $\theta$ 视为需要估计得到的具体数值，类似于频率学派的逻辑；而不是把参数也当做某种随机变量并且服从于某种分布，即贝叶斯学派的逻辑，因此逻辑上使用 MLE 来优化。
还有一点值得注意的是，这里的“似然函数”使用的是 $\bf x$ 的边缘概率，称边缘似然，因为它是仅与参数 $\theta$ 有关的概率，代入 $\bf x$ 具体数值后它是关于待估计参数 $\theta$ 的函数，所以称其为似然（likelihood）。和通常我们将 $p_\theta(\mathbf x\vert\mathbf z)$ 称为似然应该有所区分，后者是条件似然，这个概率还与隐变量 $\bf z$ 有关，并且 $\bf z$ 可能也是关于 $\theta$ 的函数。边缘似然通过积分 $\bf z$ 消除了这种影响，建立了 $\theta$ 与观察数据 $\bf x$ 的概率的直接关系，所以极大化边缘似然才对估计参数值有意义。

上式中对应的似然函数展开来如下式所示，不幸的是我们很难遍历所有可能的 $\bf z$ 并显式地给出它的表达式，所以也无法直接求出最优参数。

$p_\theta(\mathbf x)=\int p_\theta(\mathbf {x},\mathbf {z})\;\mathrm d\mathbf z=\int p_\theta(\mathbf {x}\vert\mathbf {z})p_\theta(\mathbf {z})\;\mathrm d\mathbf z$

另一方面，真实分布下的后验概率 $p_{\theta^*}(\mathbf z\vert \mathbf x)$ 也很难求（根据贝叶斯公式，它也需要 $p_\theta(\mathbf x)$ 这一项）。好在利用变分推断（Variational Inference，VI），我们可以设计一种近似函数 $q_{\phi}(\mathbf z\vert \mathbf x)$ 来逼近后验概率。

这个近似函数我们可以使用神经网络进行拟合，参数为 $\phi$ ，而参数 $\phi$ 的学习则可以通过最小化它们之间的 KL散度（ Kullback-Leibler divergence）： $D_\text{KL}\big( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x})\big)$ 得到。

将其展开：

$\begin{aligned} & D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) ) & \\ &=\int q_\phi(\mathbf{z} \vert \mathbf{x}) \log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z} \vert \mathbf{x})} d\mathbf{z} & \\ &=\int q_\phi(\mathbf{z} \vert \mathbf{x}) \log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})p_\theta(\mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} d\mathbf{z} & \scriptstyle{\text{; Because }p(z \vert x) = p(z, x) / p(x)} \\ &=\int q_\phi(\mathbf{z} \vert \mathbf{x}) \big( \log p_\theta(\mathbf{x}) + \log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} \big) d\mathbf{z} & \\ &=\log p_\theta(\mathbf{x}) + \int q_\phi(\mathbf{z} \vert \mathbf{x})\log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} d\mathbf{z} & \scriptstyle{\text{; Because }\int q(z \vert x) dz = 1}\\ &=\log p_\theta(\mathbf{x}) + \int q_\phi(\mathbf{z} \vert \mathbf{x})\log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{x}\vert\mathbf{z})p_\theta(\mathbf{z})} d\mathbf{z} & \scriptstyle{\text{; Because }p(z, x) = p(x \vert z) p(z)} \\ &=\log p_\theta(\mathbf{x}) + \mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z} \vert \mathbf{x})}[\log \frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z})} - \log p_\theta(\mathbf{x} \vert \mathbf{z})] &\\ &=\log p_\theta(\mathbf{x}) + D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z})) - \mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}\vert\mathbf{x})}\log p_\theta(\mathbf{x}\vert\mathbf{z}) & \end{aligned}$

这样推导的好处时，我们把似然函数这一项 $\log p_\theta(\mathbf{x})$ 提了出来，其余两项都是可以直接计算的式子。更进一步地，如果把 $\log p_\theta(\mathbf{x})$ 移到式子左手边（LHS），那么 LHS 正好是我们需要优化的目标，即 近似后验概率 的同时 最大化似然概率。

最终得到 VAE 的损失函数：

$\begin{aligned} L_\text{VAE}(\theta, \phi) &= -\log p_\theta(\mathbf{x}) + D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) )\\ &= - \mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z}) + D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}) ) \\ \theta^{*}, \phi^{*} &= \arg\min_{\theta, \phi} L_\text{VAE} \end{aligned}$

对于最终的损失，我们还可以将这两项分别理解为：最大化从潜在空间中重构出原数据的可能性 和 编码器与潜在空间分布的逼近。

实现细节

在使用神经网络作为编码器（拟合函数 $q_{\phi}(\mathbf z\vert \mathbf x)$ ）时，我们有 $\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})$ ，其中我们通常假设这个分布是带有对角协方差的多元高斯分布，即：

$\begin{aligned} \mathbf{z} &\sim q_\phi(\mathbf{z}\vert\mathbf{x}^{(i)}) = \mathcal{N}(\mathbf{z}; \boldsymbol{\mu}^{(i)}, \boldsymbol{\sigma}^{2(i)}\boldsymbol{I}) & \\ \mathbf{z} &= \boldsymbol{\mu} + \boldsymbol{\sigma} \odot \boldsymbol{\epsilon} \text{, where } \boldsymbol{\epsilon} \sim \mathcal{N}(0, \boldsymbol{I}) & \scriptstyle{\text{; Reparameterization trick.}} \end{aligned}$

通常如果真的按照原来的分布来采样（并非标准正态分布），这样的采样数据是不可微的，亦即不能反传梯度，所以普遍采用重参数化技巧 （reparameterization trick）让模型能够把 $\boldsymbol\epsilon\sim\mathcal N(0,\mathbf I)$ 通过变换得到想要的分布的采样结果，而这个变换过程是可微的.

NOTE: 其中的 $\mu,\sigma$ 均由神经网络通过输入 $x$ 得来，即它们是依赖于输入数据的函数.

通常假设潜在空间的分布服从标准正态分布，即 $p_\theta(z)=\mathcal{N}(0,\mathbf I)$ . 进一步地，采用重参数化技巧，对于输入样本 $x^{(i)}$ 的损失函数可以继续化简：

$\begin{aligned} \tilde{\mathcal{L}}(\theta, \phi; x^{(i)}) &= -D_{KL}(q_{\phi}(z|x^{(i)})||p_{\theta}(z)) + \mathbb{E}_{\epsilon \sim p(\epsilon)} \log p_{\theta}(x^{(i)}\|g_{\phi}(\epsilon, x^{(i)})) \\ &= -D_{KL}(q_{\phi}(z|x^{(i)})||p_{\theta}(z)) + \frac{1}{L} \sum_{l=1}^L \log p_{\theta}(x^{(i)}|z^{(i,l)}) \\ &= -\frac{1}{2} \sum_{j=1}^J \left(1 + \log \sigma^{(i,j)^2} - \mu^{(i,j)^2} - \sigma^{(i,j)^2} \right) + \frac{1}{L} \sum_{l=1}^L \log p_{\theta}(x^{(i)}|z^{(i,l)}) \\ \text{where } z^{(i,l)} &= \mu^{(i)} + \sigma^{(i)} \odot \epsilon^{(l)}, \epsilon^{(l)} \sim \mathcal{N}(0, \mathbf I) \end{aligned}$

其中， $J$ 是隐变量的维度，即 $z\in\mathbb R^{J}$ ， $i$ 表示输入样本的上标， $L$ 为随机采样次数，原第二项的期望值通过蒙特卡洛方法随机采样 $L$ 次后计算平均值得到。事实上，原官方实现对第二项直接采用 MSELoss 进行替代。

Pytorch代码

此处给出使用 Pytorch 在 MNIST 数据集上训练 VAE 的简易实现代码，参考自 learn_vae/VAE/main.ipynb OxOOo.

class VAE_Encoder(nn.Module):

    def __init__(self, input_dim, hidden_dim, latent_dim):
        super(VAE_Encoder, self).__init__()

        self.encoder = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.Tanh()
        )

        self.fc_mu = nn.Linear(hidden_dim, latent_dim)
        self.fc_logvar = nn.Linear(hidden_dim, latent_dim)
    
    def forward(self, x):
        h = self.encoder(x)
        return self.fc_mu(h), self.fc_logvar(h)

class VAE_Decoder(nn.Module):

    def __init__(self, input_dim, hidden_dim, latent_dim):
        super(VAE_Decoder, self).__init__()

        self.decoder = nn.Sequential(
            nn.Linear(latent_dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, input_dim),
            nn.Sigmoid()
        )

    def forward(self, z):
        return self.decoder(z)

class VAE(nn.Module):
    def __init__(self, input_dim=784, hidden_dim=500, latent_dim=5):
        super(VAE, self).__init__()

        self.latent_dim = latent_dim
        
        self.encoder = VAE_Encoder(input_dim, hidden_dim, latent_dim)
        self.decoder = VAE_Decoder(input_dim, hidden_dim, latent_dim)
    
    def encode(self, x):
        return self.encoder(x)

    def decode(self, z):
        return self.decoder(z)

    def reparameterize(self, mu, logvar):
        """
        重参数化技巧，先从标准正态分布中采样一个epsilon，然后根据隐变量分布的均值和方差，计算出隐变量.
        """
        std = torch.exp(0.5 * logvar) # 计算标准差, std = sqrt(var) = sqrt(exp(logvar)) = exp(logvar/2)
        epsilon = torch.randn_like(std, requires_grad=False) # 从标准正态分布中采样epsilon
        return mu + epsilon * std

    def forward(self, x):
        mu, logvar = self.encoder(x)
        z = self.reparameterize(mu, logvar)
        return self.decoder(z), mu, logvar

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# 初始化模型
model = VAE().to(device)

# 定义损失函数
def loss_function(x, recon_x, mu, logvar):
    # 这里要计算ELBO(也就是论文中的$\mathcal{L}$)，但是由于论文中的目标是最大化ELBO，pytorch中是最小化loss，所以这里实际计算的是-ELBO
    KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp()) # 计算KL散度
    BCE = nn.functional.binary_cross_entropy(recon_x, x, reduction='sum') # 计算重构误差，对应论文中的$-\log p_{\theta}(x|z)$，注意BCE loss本身前面有个负号
    return KLD + BCE

# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=1e-3)

# 训练模型
data_loader = DataLoader(images, batch_size=16, shuffle=True)
for epoch in range(30):
    total_losses = []
    for batch in data_loader:
        batch = batch.to(device)
        
        optimizer.zero_grad()
        recon_batch, mu, logvar = model(batch)
        loss = loss_function(batch, recon_batch, mu, logvar)
        loss = loss / len(batch)
        total_losses.append(loss.item())
        loss.backward()
        optimizer.step()

    print(f"Epoch {epoch+1}, Loss: {np.mean(total_losses)}")