两个指标让GAN训练更有效_诺佳网——最实用的IT互联网信息网站

两个指标让GAN训练更有效

生成对抗网络（GAN）是当今最流行的图像生成方法之一，但评估和比较 GAN 产生的图像却极具挑战性。之前许多针对 GAN 合成图像的研究都只用了主观视觉评估，一些定量标准直到最近才开始出现。本文认为现有指标不足以评估 GAN 模型，因此引入了两个基于图像分类的指标——GAN-train 和 GAN-test，分别对应 GAN 的召回率（多样性）和精确率（图像质量）。研究者还基于这两个指标评估了最近的 GAN 方法并证明了这些方法性能的显著差异。上述评估指标表明，数据集复杂程度（从 CIFAR10 到 CIFAR100 再到 ImageNet）与 GAN 质量呈负相关关系。

生成对抗网络（GAN）[19] 是由一对存在竞争关系的神经网络——生成器和判别器——组成的深度神经网络架构。通过交替优化两个目标函数训练该模型，这样可以让生成器 G 学会产生与真实图像类似的样本，还能让判别器 D 学会更好地甄别真假数据。这种范式潜力巨大，因为它可以学会生成任何数据分布。这种模型已经在一些计算机视觉问题上取得了一定成果，例如文本到图像的转换 [56] 和图像到图像的转换 [24,59]、超分辨率 [31] 以及逼真的自然图像生成 [25]。

自从提出了 GAN 模型后，近几年间出现了许多变体，如以提升生成图像质量为目的的 GAN 模型 [12,15,25,36] 和以稳定训练过程为目的的 GAN 模型 [7,9,20,34,36,40,57]。通过调整附加信息（如类别标签），GAN 还可以被修改为生成给定类别图像的网络 [16,35,37,41]。实现这一想法有许多方法：连结标签 y 和生成器的输入 z 或中间特征映射 [16,35]，使用条件批归一化 [37] 以及用辅助分类器增强鉴别器 [41]。随着这些方法的提出，有一个问题就变得重要了起来：该如何评价和比较这些模型呢？

评估和比较 GAN，或者说评估和比较 GAN 产生的图像，是一件极具挑战性的事，部分原因是缺乏明确的、在可比较概率模型中常用的似然方法 [51]。因此，之前许多针对 GAN 合成的图像的工作都只用了主观视觉评估。如图 1 所示，当前最佳 GAN 生成图像的样本 [36]，用主观评估方法无法精确评估图像质量。近两年的研究已经开始尝试通过定量方法评估 GAN[22,25,32,46]。

图 1：当前最佳 GAN 模型（如 SNGAN）[36] 生成逼真图像，这些图像难以用主观评估法与真实图像进行比较。我们的基于准确率的图像分类新方法解决了这个问题，并展示了真实图像和生成图像间的显著差异。

将 Inception 分数（IS）[46] 和 Fr´echet Inception 距离（FID）[22] 作为与生成图像视觉质量相关的临时指标。IS 通过计算图像产生的 (logit) 响应和边际分布（即在 ImageNet 上训练出来的 Inception 网络生成的全部图像的平均响应）之间的 KL 散度衡量生成图像的质量。换句话说，IS 无法与目标分布的样本进行比较，仅可用于量化生成样本的多样性。FID 比较的是真实图像和生成图像间的 Inception 激活值（Inception 网络中倒数第二层的响应）。但这样的比较将真实图像和生成图像的激活值近似为高斯分布（参见等式（2）），计算其平均值和方差，但因为太过粗糙而无法捕捉其细节。这些评估方法都依赖于经过 ImageNet 预训练的 Inception 网络，这对其他数据集（如面部数据集和生物医学成像数据集）来说远不够理想。总而言之，IS 和 FID 是评估训练进展的有用指标，但它们无法评估真实世界中的任务。正如我们在第 5 节中讨论的那样，与我们的指标（以表 2 中的 SNGAN 和 WPGAN-GP（10M）为例）不同，这些指标不足以精确地区别出当前最佳的 GAN 模型。

还有一种评估方法是根据精确率和召回率计算生成样本到真实数据流形间的距离 [32]。高精确率意味着生成样本与数据流形很接近，而高召回率意味着生成器的输出样本很好地覆盖了流形。这些指标还是很理想主义的，因为无法在流形未知的自然图像数据上进行计算。实际上，[32] 中的评估方法也只能用在由灰度三角形组成的合成数据中。另一种用于比较 GAN 模型距离的是 SWD[25]。SWD 是真实图像和生成图像间的 Wasserstein-1 距离的估计值，它计算的是从图像的 Laplacian 金字塔表征中提取的局部图像之间的数据相似性。正如第 5 节所说，SWD 的信息量低于我们的评价指标。

我们在本文中提出了新的评价指标，是用 GAN-train 分数和 GAN-test 分数比较类条件的 GAN 架构。对于这两种指标，我们都依赖神经网络架构来进行图像分类。为了计算 GAN-train，我们用 GAN 生成的图像训练了分类网络，然后在由真实图像组成的测试集上评估了其表现。直接地说，这度量了学习到的（生成图像）分布和目标（真实图像）分布间的差异。可以得出结论：如果学习用于区分针对不同类别的生成图像特征的分类网络可以对真实图像进行正确分类，那么生成图像与真实图像相似。换句话说，GAN-train 类似于召回率度量，因为 GAN-train 表现好意味着生成的样本足够多样化。但是，GAN-train 也需要足够的精确率，否则分类器会受到样本质量的影响。

两个指标让GAN训练更有效

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢