那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

夏乙 2017-11-30 21:51:02 来源：量子位

夏乙编译整理

量子位出品 | 公众号 QbitAI

从2014年诞生至今，生成对抗网络（GAN）热度只增不减，各种各样的变体层出不穷。有位名叫Avinash Hindupur的国际友人建立了一个GAN Zoo，他的“动物园”里目前已经收集了多达214种有名有姓的GAN。

DeepMind研究员们甚至将自己提出的一种变体命名为α-GAN，然后在论文中吐槽说，之所以用希腊字母做前缀，是因为拉丁字母几乎都被占了……

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

这还不是最匪夷所思的名字，在即将召开的NIPS 2017上，杜克大学还有个Δ-GAN要发表。

就是这么火爆！

那么问题来了：这么多变体，有什么区别？哪个好用？

于是，Google Brain的几位研究员（不包括原版GAN的爸爸Ian Goodfellow）对各种GAN做一次“中立、多方面、大规模的”评测，得出了一个有点丧的结论：

No evidence that any of the tested algorithms consistently outperforms the original one.

量子位非常不严谨地翻译一下：

都差不多……都跟原版差不多……

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

比什么？

这篇论文选取了如下GAN变体：

MM GAN
NS GAN
WGAN
WGAN GP
LS GAN
DRAGAN
BEGAN

其中MM GAN和NS GAN分别表示用minimax损失函数和用non-saturating损失函数的原版GAN。

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

除此之外，他们还在比较中加入了另一个热门生成模型VAE（Variational Autoencoder，变分自编码器）。

对于各种GAN的性能，Google Brain团队选了两组维度来进行比较。

一是FID（Fréchet Inception Distance），FID的值和生成图像的质量负相关。

测试FID时用了4个数据集：MNIST、Fashion MNIST、CIFAR-10和CELEBA。这几个数据集的复杂程度从简单到中等，能快速进行多次实验，是测试生成模型的常见选择。

二是精度（precision、）、查全率（recall）和F1得分，用来衡量判别式模型的质量。其中F1是精度和查全率的调和平均数。

这项测试所用的，是Google Brain研究员们自创的一个数据集，由各种角度的三角形灰度图像组成。

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

精度和查全率都高、高精度低查全率、低精度高查全率、精度和查全率都低的模型的样本

对比结果

Google Brain团队从FID和F1两个方面对上面提到的模型进行比较，得出了以下结果。

FID

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

通过对每个模型100组超参数的大范围搜索，得出的结论是GAN在训练中都对于超参数设置非常敏感，没有哪个变体能够幸免，也就说，哪个GAN也没能比竞品们更稳定。

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

从结果来看，每个模型的性能擅长处理的数据集不太一样，没有在所有数据集上都明显优于同类的。不过，VAE相比之下是最弱的，它所生成出的图像最模糊。

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

测试还显示，随着计算资源配置的提高，最小FID有降低的趋势。

如果设定一个FID范围，用比较多计算资源训练的“坏”模型，可能表现得比用较少计算资源训练的“好”模型要更好。

另外，当计算资源配置相对比较低的时候，所有模型的最小FID都差不多，也就是说，如果严格限制预算，就比较不出这些模型之间具有统计意义的显著区别。

他们经过比较得出的结论是，用能达到的最小FID来对模型进行比较是没有意义的，要比较固定计算资源配置下的FID分布。

FID之间的比较也表明，随着计算力的增加，最先进的GAN模型之间体现不出算法上的优劣差别。

精度、查全率和F1

Google Brain团队还用他们的三角形数据集，测试了样本量为1024时，大范围搜索超参数来进行计算的精度和查全率。

对于特定的模型和超参数设置，最高F1得分会随着计算资源配置的不同而不同，如下图所示：

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

不同计算资源配置下各模型的F1、精度和查全率

论文作者们说，即使是一个这么简单的任务，很多模型的F1也并不高。当针对F1进行优化时，NS GAN和WGAN的精度和查全率都比较高。

和原版GAN相比

Google Brain团队还将这些变体和原版GAN做了对比。他们得出的结论是，没有实证证据能证明这些GAN变体在所有数据集上明显优于原版。

实际上，NS GAN（使用non-saturating函数的原版GAN）水平和其他模型持平，在MNIST上的FID总体水平最好，F1也比其他模型要高。

那么多GAN哪个好？谷歌大脑泼了盆冷水：都和原版差不多｜论文

比什么？

对比结果

和原版GAN相比

相关链接

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬