集多种半监督学习范式一体：谷歌研究提出新型半监督方法MixMatch

xnzsxnzs

2019-06-03

谷歌研究者通过融合多种主流半监督学习范式，提出了一种新算法 MixMatch。该算法在多个数据集上获得了当前最优结果，且明显优于次优算法。

事实证明，半监督学习可以很好地利用无标注数据，从而减轻对大型标注数据集的依赖。而谷歌的一项研究将当前主流的半监督学习方法统一起来，得到了一种新算法 MixMatch。该算法可以为数据增强得到的无标注样本估计（guess）低熵标签，并利用 MixUp 来混合标注和无标注数据。实验表明，MixMatch 在许多数据集和标注数据上获得了 STOA 结果，展现出巨大优势。例如，在具有 250 个标签的 CIFAR-10 数据集上，MixMatch 将错误率降低了 71%（从 38％降至 11％），在 STL-10 上错误率也降低了 2 倍。对于差分隐私 (differential privacy)，MixMatch 可以在准确率与隐私间实现更好的权衡。最后，研究者通过模型简化测试对 MixMatch 进行了分析，以确定哪些组件对该算法的成功最为重要。

缺少数据怎么办

近期大型深度神经网络取得的成功很大程度上归功于大型标注数据集的存在。然而，对于许多学习任务来说，收集标注数据成本很高，因为它必然涉及专家知识。医学领域就是一个很好的例子，在医学任务中，测量数据出自昂贵的机器，标签则来自于多位人类专家耗时耗力的分析。此外，数据标签可能包含一些隐私类的敏感信息。相比之下，在许多任务中，获取无标注数据要容易得多，成本也低得多。

半监督学习 (SSL) 旨在通过在模型中使用无标注数据，来大大减轻对标注数据的需求。近期许多半监督学习方法都增加了一个损失项，该损失项基于无标注数据计算，以促进模型更好地泛化到未知数据。在最近的工作中，该损失项一般分为三类：熵最小化 [17, 28]——促使模型输出对无标注数据的可信预测；一致性正则化（consistency regularization）——促使模型在其输入受到扰动时产生相同的输出分布；通用正则化（generic regularization）——促使模型很好地泛化，并避免出现对训练数据的过拟合。

谷歌的解决方案

谷歌的这项研究中介绍了一种新型半监督学习算法 MixMatch。该算法引入了单个损失项，很好地将上述主流方法统一到半监督学习中。与以前的方法不同，MixMatch 同时针对所有属性，从而带来以下优势：

实验表明，MixMatch 在所有标准图像基准上都获得了 STOA 结果。例如，在具备 250 个标签的 CIFAR-10 数据集上获得了 11.08% 的错误率（第二名的错误率为 38%）；
模型简化测试表明，MixMatch 比其各部分的总和要好；
MixMatch 有助于差分隐私学习 (differentially private learning)，使 PATE 框架 [34] 中的学生能够获得新的 STOA 结果，该结果在增强隐私保障的同时，也提升了准确率。

简而言之，MixMatch 为无标注数据引入了一个统一的损失项，它在很好地减少了熵的同时也能够保持一致性，以及保持与传统正则化技术的兼容。