「Ian Goodfellow亲授」GAN论文投稿指南,从了解评审要点开始
新智元推荐
来源:知乎专栏
作者:Ian Goodfellow 翻译:王宇龙
【新智元导读】每年在机器学习相关的顶会中,有关生成对抗网络GAN的理论和实证研究论文非常多,如何评估这些论文的新颖性,如何评估模型是否有真正的突破,以及如何避免埋没好论文,是值得关注的问题。GAN的提出人、谷歌工程师Ian Goodfellow近日发表一系列推文,谈论这些问题的解决方法,以及他对目前GAN进展的一些忧虑。
有许多关于 GAN 如何工作的理论或实证研究论文,关于如何用 GAN 做新奇而有趣的事情的论文(例如关于应用在无监督翻译的第一篇论文),新的度量标准等等。但这个主题不是关于那些。
还有很多关于 GAN 的文章作为更大系统的一部分,比如半监督学习的 GAN,差分隐私,数据集增强等等。这个帖子也不是关于那些 --- 因为他们可以以更大的系统的评测标准来衡量。
这个主题是关于一些新的方法,这些方法一般会使 GAN 更可靠地训练或生产更好的样本。
如何评估GAN论文的新颖性
我的第一个建议是,GAN 论文的审稿人应该阅读 “Are GANs Created Equal?” 这篇文章,它解释为什么这方面的实证工作很难以及如何正确的进行研究。
另一篇关于背景知识的好文章是 “A note on the evaluation of generative models”,它解释了为什么模型可能生成很好的样本但是却有较差的 likelihood,反之亦然,以及其他衡量生成模型指标的问题 。
GAN 论文的一个难点是评估新颖性。 有很多论文提出了 GAN 的改进,但很难跟踪所有这些改进,并区分一种新方法是否真的创新。 试着用 4-5 种方式来重新阐述这个想法,并用谷歌搜索,看它是否已经被提出。
网上一个好的资源去跟踪这些 GAN 变体是 GAN zoo:https://github.com/hindupuravinash/the-gan-zoo
参考:Ian Goodfellow 推荐:GAN 动物园——GAN 的各种变体列表(下载)
如果提出的方法不是真正的新方法,那么论文可能还是有价值的,但审稿人应
该确保论文正确地 acknowledge 以前的工作。
评估GAN性能的指标
就指标而言,Frèchet Inception Distance(或其 intra-class 版本)可能是目前评估通用 GAN 性能的最佳指标。 对于除 ImageNet 以外的数据集,使用 Inception 之外的模型来定义距离也是可以的。
一些专注于特殊情况的论文可能会包含其他指标(例如,具有 Real NVP generator 的 GAN 可以实际上报告准确的 likelihood),但是如果论文没有报告 FID,我希望它能够很好地说明为什么。
很多论文都鼓励读者通过查看样本来形成他们对论文方法的看法。 这通常是一个不好的迹象。
我知道使用样本来证明情况有所改善主要是来说明,当前方法可以从以前的技术无法解决的领域生成样本。
例如,使用单个 GAN 生成 ImageNet 样本非常困难,许多论文显示的基本上是失败的尝试。 SN-GAN 成功地从所有类别制作可识别的样本。 由此我们知道 SN-GAN 是一项重大改进。
(这种改进仍然有可能来自于除了所提出的方法以外的其他因素,例如新的更大的网络架构等等)
许多论文展示了来自 CIFAR-10 或 CelebA 等数据集的样本,想要让审稿人留下深刻的印象。对于这些我从来不知道我想要寻找什么。这些任务大都解决了,所以他们大部分都失去了意义。
我也不知道如何将有一种微小缺陷的图像,和另一种图像质量上有不同的小缺陷进行对照——诸如是有一点摇摆(wobble)好,还是一点点棋盘格(checkerboarding)更好?
因此,我通常只会将 CelebA,CIFAR-10 上生成的样本,视为仅是为了对于方法不会崩的完整性检查(sanity-check)。
baseline和复现模型
审稿人应该对任何已经复现了 baseline 的人非常怀疑。有很多微妙的方法来搞砸深度学习算法,而作者有动机不是非常仔细地检查复现的 baseline。
通常,至少有一个 baseline 应该是另一篇论文发表的结果,因为其他论文的作者有动机来获得好的结果。 这样评估至少是动机相容的(incentive-compatible)。
审稿人应该检查其他论文复现的模型是否执行了相同任务,并检查他们的 score。因为这种情况非常常见:引用别人论文,然后显示比原论文实际报告的更糟糕的图像 / 分数。
当然,其他领域也会在故意打压(sandbagging)baseline:
每年当写论文的时候,大家就很方(wu)便(chi)的把 baseline 弄差了
但我觉得这对 GAN 论文特别不利。
有时,如果一篇论文研究一项新任务或一项以前研究过的任务中很少评估过的方面,作者有必要实施他们自己的 baseline。 在这种情况下,可能论文的一大半部分应该致力于证明 baseline 是正确的
解释所有超参数来自何处非常重要。通常新方法看起来像是改进,但其实是因为作者花费了更多时间非正式地优化新方法的超参数
成就解锁:最大 Twitter 线(thread)长度。 我会另开一贴
(本文经授权转载自知乎专栏:Learning in the Deep)