ImageNet分类器可以泛化到ImageNet上吗？

MaggieMiaoMiao

2019-02-23

当前的分类模型泛化到新数据时总会有不同程度的准确率下降，传统观点认为这种下降与模型的适应性相关。但本文通过实验证明，准确率下降的原因是模型无法泛化到比原始测试集中更难分类的图像上。

机器学习的首要目标是生成泛化模型。我们常通过测量模型在测试集上的性能来量化模型的泛化能力。在测试集上的良好性能是指什么？至少在遵循相同的数据清理协议时，模型在由相同数据源组成的新测试集上也能表现良好。

在本文中，研究人员通过复制两个重要基线数据集（CIFAR-10 和 ImageNet）的创建过程来实现这一实验。与理想结果相反，他们发现很多分类模型未能达到其原始的准确率分数。CIFAR-10 的准确率下降了 3％~15％，准确率下降了 11％~14％。在 ImageNet 上，损失的准确率大概需要机器学习研究高度活跃时期五年的进步来弥补。

传统观点认为，出现这种下降的原因是模型已经适应了原始测试集中的特定图像，例如，通过广泛的超参数调整。然而，本文的实验表明，模型的相对顺序在新测试集上几乎保持不变：在原始测试集上具有最高准确率的模型仍然是新测试集上具有最高准确率的模型。而且，准确率方面也没有递减。实际上，原始测试集上的准确率每提高一个百分点都意味着新测试集上更大的改进。因此，虽然后来的模型本可以更好地适应测试集，但它们的准确率下降较小。实验结果证明，全面的测试集评估是改进图像分类模型的有效方法。因此，自适应性不太可能是准确率下降的原因。

相反，研究人员基于原始和新测试集的相对难度提出了另一种解释。他们证明，如果新数据集只包含候选池中最简单的图像，几乎可以完全恢复原始的 ImageNet 准确率。这表明即使是最好的图像分类器，其准确率分数也对数据清理过程的细节高度敏感。它还表明，即使在精心控制的重复性实验的良性环境中，目前的分类器仍然不能可靠地泛化。

图 1 显示了实验的主要结果。为了支持未来研究，研究人员还发布了新的测试集和相应的代码。

ImageNet分类器可以泛化到ImageNet上吗？

图 1：在原始测试集和新测试集上的模型准确率。每个数据点对应于测试平台中的一个模型（显示为 95％的 Clopper-Pearson 置信区间）。该图揭示了两个主要现象：1）从原始测试集到新测试集的准确率明显下降。2）模型准确率遵循斜率大于 1 的线性函数（CIFAR-10 为 1.7，ImageNet 为 1.1）。这意味着原始测试集上的每个百分点的改进会转换为新测试集上超过一个百分点的改进。从上图可以直观地对比两边的斜率。红色区域是 10 万个 bootstrap 样本线性拟合的 95％置信区域。

论文：Do ImageNet Classifiers Generalize to ImageNet?

ImageNet分类器可以泛化到ImageNet上吗？

论文地址：http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf

摘要：我们为 CIFAR-10 和 ImageNet 数据集构建了新的测试集。这两个基准测试集近十年来一直是研究的焦点，增加了过度重复使用测试集的风险。通过密切关注原始数据集创建过程，我们测试了当前分类模型泛化到新数据的程度。我们评估了大量模型，发现在 CIFAR-10 上的准确率下降了 3％~15％，在 ImageNet 上的准确率下降了 11％~14％。但是，原始测试集上准确率的改进能够为新测试集带来更大的改进。结果表明，准确率下降不是由适应性造成的，而是由于模型无法泛化到比原始测试集中更难分类的图像上。

实验总结

可重复性实验的主要步骤如下。附录 B 和 C 详细地描述了此方法。第一步是选择信息性数据集。

ImageNet分类器可以泛化到ImageNet上吗？

表 1：原始 CIFAR-10 测试集、原始 ImageNet 验证集和新测试集上的模型准确率。ΔRank 是所有模型完整排序中从原始测试集到新测试集的排名相对差异（参见附录 B.3.3 和 C.4.4）。例如，ΔRank= -2 意味着与原始测试集相比，新测试集上的模型下降了两名。置信区间为 95％的 Clopper-Pearson 区间。由于篇幅限制，模型的参考资料见附录 B.3.2 和 C.4.3。

ImageNet分类器可以泛化到ImageNet上吗？

表 2：三种采样策略对 ImageNet 测试集的影响。该表显示了结果数据集中的平均 MTurk 选择频率，以及与原始验证集相比模型准确率的平均变化。所有三个测试集的平均选择频率都超过 0.7，但模型准确率仍然相差很大。相比之下，在 MTurk 实验中，原始 ImageNet 验证集的平均选择频率为 0.71。在 top-1 和 top-5 中，平均准确率的变化分别为 14％和 10％。这表明采样策略的细节对结果的准确率有很大影响。

ImageNet分类器可以泛化到ImageNet上吗？

图 2：原始 ImageNet 验证集上的模型准确率 vs. 新测试集的两个变体上的准确率。每个数据点对应于测试平台中的一个模型（显示为 95％的 Clopper-Pearson 置信区间）。阈值为 0.7 时，模型准确率比在原始测试集上低了 3％。在 MTurk 工作人员最常选择图像的 TopImages 上，模型的性能比在原始测试集上提高了 2％。两个数据集的准确率都遵循线性函数规律，类似于图 1 中的 MatchedFrequency。红色阴影区域是 10 万个 bootstrap 样本线性拟合的 95％置信区域。

分类器 imagenet 测试模型泛化能力

安科网

ImageNet分类器可以泛化到ImageNet上吗？

MaggieMiaoMiao

MaggieMiaoMiao

相关推荐

人工智能助力发现火星新陨石坑

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

一种简单而智能的方法：Python也能进行面部识别

mooc机器学习第六天-K近邻，决策树，朴素贝叶斯分类器简单尝试

opencv 人脸识别

集成学习之AdaBoost算法

PU Learning简介:对无标签数据进行半监督分类

基于SGD、ASGD算法的SVM分类器（OpenCV案例源码train_svmsgd.cpp解读）

机器学习：集成算法 - bagging、boosting、adaboost

opencv detectMultiScale()

谈谈模型融合之三 —— GBDT

数据分析的一些概念

[白话解析] 深入浅出支持向量机(SVM)之核函数

机器学习——GBDT算法与stacking算法

机器学习——Boosting算法与Adaboost算法

6个你应该知道的机器学习的革命性的教训

吴裕雄--天生自然python机器学习：朴素贝叶斯算法

机器学习：基于sklearn的AUC的计算原理

22道机器学习常见面试题目

李飞飞计算机视觉学习总结三

MaggieMiaoMiao