AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

Google 曾训练出一台智能计算机,打败了围棋世界冠军李世石。

这对今天的商业有什么样的指导意义呢?

AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

目前,研究人员正在借助机器学习(ML)来挖掘计算机让人不可思议的潜力。

这项研究非常激动人心,对吧?

只是,其中的大多数研究仍处于初级阶段。

当下,我们用监督学习训练出的现成机器学习算法来解决商业问题。

不幸的是,这些成熟的算法面临着诸多的挑战。例如,监督学习需要大量已标注的训练数据,但是数据有时候是非常昂贵的。

本篇文章中,我将会向大家介绍一种能够降低成本的方法,也就是迁移学习技术。

作为 Google 的最新研究成果,迁移学习技术相当实用。

监督学习101

监督学习是一种用已标记数据训练预测算法的技术。

例如,假设你想根据膳食图片来预测其卡路里的值,那么你需要从一组已标记卡路里值的膳食样本图片开始。

AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

一张标记有卡路里值的菜肴图片。监督学习会借助数千个标记样本来训练机器学习算法。

AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

数据科学家可以使用这些已标记样本来训练一个算法,预测图片中菜肴的卡路里值。

AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

经过合理训练的机器学习算法可以预测图片中菜肴的卡路里值。

通常,机器学习算法需要大约5000个已标记的训练样本才能达到一定的效果。但如果要达到人类预测水平的话,则需要至少50,000个已标记样本。

这听起来似乎很容易,但事实却并非如此。

标签数据的获取预算庞大

监督学习的最大困难,是获取足够大的已标记数据的语料库。以上面的例子来说,估算每张图像中菜肴的卡路里值需要诸如食材列表、烹饪方法和每种成分的重量等信息。

如何获取足够的数据?

假设数据科学家需要100,000张标有准确卡路里值的食物图片。那么我们怎样来得到这些数据呢?

  1. 雇用100名厨师烹制菜肴,记录相关的配料并拍摄照片吗?

  2. 借助某种促销激励手段来聚集全球的厨师?

可见,获取成千上万个已标记训练样本可能需要耗费大量的时间和金钱。

迁移学习来帮忙

如今,如何克服这些数据挑战已成为一个主要的研究领域。

而其中的一种解决方案就是迁移学习——一种将解决某一问题时得到的知识应用于其他相关问题的技术。

数据科学家可以首先寻找那些廉价或免费可用的标签数据集来训练算法,然后,使用较小的一个标签数据集训练同一算法以进行预测。

迁移学习用于食物预测

回到我们刚开始的例子:从菜肴照片中预测相应的卡路里值。

假设你的首席财务官(CFO)批的预算只够获取1,000张已标记的样本图片——仅仅占数据科学家要求的1%。在申请更多的预算之前,你可以尝试通过迁移学习来解决问题。

  1. 从免费公开的数据集开始。开始时用 ImageNet 中1400万标签数据的子集训练算法。该过程会训练算法识别图像特征。

  2. 借助 Amazon 的土耳其机器人网站(Mechanical Turk)生成训练数据。拍摄50,000张食物图像,通过 Mechanical Turk 雇佣员工来标记肉眼可见的菜品成分。然后训练机器学习算法,使其分辨出以下特征:盘子、食物的一部分、边缘等。

  3. 使用有限的标签数据进行训练。使用1,000张已标记卡路里量的图像训练 ML 算法。

AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

人工不容易估计卡路里的值,但可以识别菜肴中的常见成分。用这些已标记样本训练ML算法以识别关键特征

在前两个步骤中,ML 算法学习 “迁移”,以便在最后一步中改进学习,达到预期的预测效果。

迁移学习用于预测非洲村落贫困程度

上述预测膳食热量的例子,与斯坦福大学 Stefano Erman 发表的预测非洲村落贫困程度的应用相似。在其论文《依赖遥感图和贫困分布图深度特征的迁移学习》(Transfer Learning from Deep Features for Remote Sensing and Poverty Mapping,https://arxiv.org/abs/1510.00098)中,Erman 描述了运用迁移学习来训练非洲国家贫困估算算法的方法。

AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍

众所周知,从贫困农村地区获取准确的贫困数据是一个非常难的问题。进行实地人工调查的代价是昂贵的,而且往往也不安全。

而Erman只使用了少量已标记的调查数据,就预测出了农村的贫困程度。一开始他先使用ImageNet和卫星数据训练其算法。然后,进行迁移学习,通过少量的实地调查数据来做出准确的贫困预测。

预测结果相当惊人。

迁移学习是解决实际商业问题的实用技术

在现实世界中,我们从来都没有得到足够多的数据。

除非是 Google 或者 Facebook,否则获取标签数据可能会非常的昂贵。迁移学习技术具有2个主要商业优势:

迁移学习能推动实验的进程

对资金有限的初创公司来说,创新的关键是通过快速的实验来验证其想法。

基于自有的数据,你是否想出了某些新型的服务想法?在打算付出多年努力、耗费数百万金钱之前,尝试使用迁移学习有助于提早成功。

迁移学习意味着ML项目的投资回报率更高

随着环境的变化,ML 数据的维护需要持续的投资。迁移学习可以降低持续数据管理的成本,提高任意 ML 项目的投资回报率。

本文作者 Kevin Dewalt 是一名20年的黑客,创始人和投资者。目前,帮助企业领导者开发 AI,并且制定机器学习策略。

本文由 AI100 编译,转载需得到本公众号同意。


编译:AI100

原文链接:https://medium.com/the-business-of-ai/double-the-roi-of-your-machine-learning-investment-with-transfer-learning-a04cabfc3059


关于AI100

AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台;为人工智能创业者提供行业数据及智能应用的商业场景;为行业提供人工智能化的技术商业应用。请快快关注AI100公众号吧!

相关推荐