机器学习+数据分布漂移的学习

在本文中,我将重点讨论机器学习的挑战,这些挑战是由于突然的数据变化(称为分布漂移)以及如何通过再训练或取消学习来缓解这些挑战。

数据科学生命周期

数据科学构成了一系列迭代步骤,包括业务理解,数据采集,建模和部署。数据采集​​可以被认为是数据科学过程中的第一个实际步骤。请参阅下图中的数据科学生命周期。

机器学习+数据分布漂移的学习

数据驱动的组织从多个内部和外部来源收集数据,最终进入他们的数据湖平台。它通过单一,统一的整个组织数据视图以及从无限类型的数据中获取价值的能力,为组织提供了灵活性的数据访问。该数据最终用于建模,以便为生产中的基于机器学习的产品提供动力。

数据分布漂移

变化是这个宇宙永恒的现实。不稳定的情况包括社会经济、安全和政治因素等。来自我们无法控制的外部资源的数据的突然变化被称为分布漂移

对机器学习的挑战

当今数据科学中最具挑战性的问题之一就是要客观地跟踪这些变化因素。主要的问题是,有太多的因素,甚至更糟的是,大多数因素都不能被准确甚至客观地衡量。这些缺陷使得机器学习算法更不准确,更偏向于最近的过去(换句话说,新数据)。在旅游业中,用户趋势可以分为振荡模式和非振荡模式。

振荡模式也适用于其他业务,它们相对容易预测和重复,每年很少变化。例如,人们开始上网寻找明年1月份暑假的灵感。在两家旅游网站上都可以看到1月份总访问量的峰值。这种用户波动模式可以在各种web度量中观察到,包括点击、预订和收入等。

机器学习+数据分布漂移的学习

非振荡模式是不可重复的趋势,例如,这些旅行站点是新颖的。这些暂时和永久的趋势变化有时还会使离线训练的机器学习模型失效。例如,如果一个游客今年夏天去巴黎旅游一周,他很可能就不会再去了。因此,用户今年在旅游门户网站上生成的用户数据明年可能与预测用户想去哪里没有多大关系。

历史数据的价值

大规模历史数据的价值主要取决于振荡和非振荡趋势方面的问题背景,如前一节所述。在这种预测问题中,数据的价值与生成数据时的时间成反比。尽管随着时间的推移价值下降,历史数据与更新的外部数据相结合可以帮助估计一些振荡模式或相对简单的业务问题,例如用户预计明年的旅行预算范围。可以使用新数据用例的可能性和业务问题的性质来量化数据值并证明存储成本的合理性。

监督机器Re / Un学习

监督学习使用历史数据来预测未来。这里的基本假设是,历史数据的趋势在未来是完全可重复的,在非振荡趋势下会崩溃,并导致模型性能错误。机器学习模型可以是离线的、带历史数据的批处理模式,也可以是基于输入数据流的增量式在线模式。当分布漂移发生时,这两种技术都有各自的优缺点。

离线批量模型

以批处理模式训练的离线模型对分布漂移具有最大的灾难性影响。每次都需要模型的RE LEARNING,检测到分布漂移。这里的主要挑战是将这些变化的实时,时间框架和性质发现为临时或永久性的。在检测到分布漂移的情况下情况变得复杂,但是较新的数据包含对于模型而言关键的丢失或错误的数据值。这里有新模型与缺失/错误数据和旧模型与分布漂移之间的权衡。必须根据业务需求做出明智的决策。

在线增量模型

以增量模式培训的在线模型虽然能够适应分布漂移,但这些模型的性能通常低于离线模型。另一方面,由于缺失或错误的信息,这些模型具有最大的灾难性影响。例如,跟踪数据突然开始包括一些个人识别信息或黑客将合成数据输入异常值检测模型以破坏其预测。在这种情况下,RE LEARNING模型需要一些时间来使用更新的清洁数据而没有个人识别信息或没有黑客的合成数据,但由于隐私和安全原因,它可能不可行。在这种情况下,一些模型UN LEARNING 必须应用策略,以便整个系统忘记不良学习。

统计查询学习是一种可以使用的技术,以便容易忘记不良学习。可以参考2015年哥伦比亚大学的Yinzhi Cao和Junfeng Yang的 “ Towards Making Systems Forget with Machine Unlearning”的研究工作,以获得有关这些技术的更多细节。

总结

数据分布漂移和缺失的数据值在离线批处理模型和在线增量模型中都引起了干扰,可以通过重新学习和取消学习来减轻干扰。有时重复学习是不可行的解决方案,采用无学习的方法是必要的,但是需要使用统计查询语言进行建模。在构建任何机器学习模型之前,了解这些方面的数据隐私和模型基础设施需求将有助于生成更好的、可信赖的模型,这些模型可以根据需要学习和不学习。

相关推荐