半监督学习革命:带你脱离未标注数据泥潭
全文共1707字,预计学习时长4分钟
来源:Pexels
对于一个机器学习工程师来说,最往往会遇到这种情况:需要访问大量数据,但只有些许资源来加注它。处于这种困境中的每个人最终都会经历这样的疑问:当存在有限的监督数据,但有大量未标注的数据时,自己该做什么?本文给出了一个解决方案:半监督学习semi-supervisedlearning。
从历史上看,作为一种通过“仪式”,半监督学习一直是每个工程师都要经历的“兔子洞”之一,结果却发现,人们对简单的旧数据标注有了新的认识。每一个问题的细节都是独一无二的,但大体上通常可以这样描述:
在低数据体制下,半监督训练确实有助于提高绩效。但在实际环境中,性能往往会从“糟糕且不可用”的水平下降到“不那么糟糕但仍完全不可用”。从本质上讲,当数据工程师处在一个半监督学习确实有帮助的数据环境中时,这意味着也处在一个分类器很差、没有实际用处的环境中。
此外,半监督通常不是免费的,而且使用半监督学习的方法通常不能提供与高数据情况下的监督学习相同的渐进性——例如,未标注的数据可能会引入偏差。
在深度学习的早期,一种非常流行的半监督学习方法是首先学习对未标注数据的自编码,然后对标注数据进行微调。几乎没有人再这样做了,因为通过自编码学习的表示往往在经验上会限制微调的渐进性。有趣的是,即使现代生成方法有了很大的改进,这种情况也没有多大的改善,这可能是因为一个好的生成模型并不一定是一个好的分类器。
因此,当今天看到工程师微调模型时,通常是从在监督数据上学习的表示开始的——没错,文本是用于语言模型的自监督数据。在任何实际情况下,从其他预训练模型中转移学习是一个更强的起点,而半监督方法很难取得更好的效果。
因此,一个典型的机器学习工程师在半监督学习“泥沼”中的艰难旅程是这样的:
1:一切都很糟糕,试试半监督学习吧!(毕竟,这是工程工作,比标注数据有趣得多……)
2:看,数字上升了!不过一样糟糕。看来还是得给数据贴上标签了……
3:数据越多越好,但试过丢弃半监督机器会发生什么吗?
4:知道吗,这样做其实更简单更好。可以通过跳过2和3点来节省时间和大量的技术债。
如果很幸运,你的问题可能也有一个这样的表现特征:
在这种情况下,存在一个狭窄的数据体制,其中半监督是不可怕的,也提高了数据效率。根据经验,很少能达到这个最佳状态。考虑到额外复杂性的成本,标注数据量的差距通常不会在好几个数量级的上升同时收益还会递减,这完全没有什么必要,除非是在一个学术基准上竞争。
等等,这篇文章不是在谈论“无声的半监督革命”吗?
一个有趣的趋势是,半监督学习的前景可能正在变得更像这样:
这将改变一切。首先,这些曲线符合人的思维模式,即半监督方法应该做什么:数据越多越好。即使在监督学习效果良好的数据体制下,半监督和监督之间的差距也应该严格为正。这种情况越来越多地发生,而且没有任何代价,额外的复杂性也非常小。“神奇区域”的起点较低,同样重要的是,它不受高数据体制的限制。
有什么新鲜事吗?有很多:许多聪明的方法去自标注数据和表达损失,使其兼容来自自标注的干扰信息和潜在的偏差。最近的两部著作例证了近期的进展,并指出了相关的文献:
MixMatch: A HolisticApproach to Semi-Supervised Learning和Unsupervised DataAugmentation.
在半监督学习的世界里,另一个根本性的转变是意识到它可能在机器学习隐私方面发挥非常重要的作用。例如,PATE方法(用于从私人训练数据进行深度学习的半监督知识转移,使用PATE进行可伸缩的私人学习),其中监督数据被假定为私有,而具有强大隐私保障的学生模型仅使用未标注的(假定为公共的)数据进行训练。对隐私敏感的知识提取方法正在成为联合学习Federated Learning的关键推动者之一。联合学习承诺提供高效的分布式学习,而不依赖于模型访问用户数据,并提供强大的数学隐私保障。
这是一个令人兴奋的时刻,重新审视半监督学习在实际环境中的价值。看到长期持有的假设受到挑战,是该领域取得惊人进展的一个重要指标。这种趋势是最近才出现的,必须看看这些方法能否经受住时间的考验,但这些进步可能导致机器学习工具体系结构的根本性转变,这是非常有趣的。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”