九个机器学习的迷思
当技术像机器学习一样被炒得沸沸扬扬时,就会有许多误解产生。以下是关于机器学习可以提供,或不能提供的清晰视角。
机器学习被证明是非常有用的,人们很容易假设它可以解决所有问题并适用于所有情况。和其它工具一样,机器学习在特定领域也很有用,特别是对于一直困扰着你,但你永远不会雇用足够的人来解决的问题,或者对于有明确目标,但没有明显的实现方法的问题。
尽管如此,每个组织都有可能以这样或那样的方式利用机器学习,因为42%的高管最近告诉埃森哲,他们预计人工智能将在2021年之前成为他们的创新的后盾。但是,只要你的视野能绕过炒作,并避免下面这些常见的误解你会得到更好的成果——通过了解机器学习可以实现和不能实现的机制。
迷思:机器学习就是人工智能
机器学习和人工智能经常被用作同义词,但机器学习是最成功地从研究实验室走出来,迈向现实世界的技术,而人工智能则是一个广泛的领域,它涵盖计算机视觉、机器人技术和自然语言处理等领域,以及不涉及机器学习的约束满足等方法。不妨把它看成是使机器变得智能的一切东西。这些都不是那种一般人所害怕的通用“人工智能”——可以与人竞争甚至攻击人类的东西。
留意这些流行语并做到准确无误。机器学习是关于学习模式和预测大数据集的结果;结果可能看起来很“智能”,但其本质事关以前所未有的速度和规模应用统计数据。
迷思:是数据就有用
机器学习需要数据,但并非所有的数据都可用于机器学习。为了训练你的系统,你需要有代表性的数据,以涵盖机器学习系统需要处理的模式和结果。你需要不含与模式不相关的数据(例如显示这些内容的照片——所有站立的男士和所有坐着的女士,或者所有车辆都在车库中,所有自行车都在泥泞的场地中),因为你所创建的机器学习模型将反映那些过于具体的模式,并在你使用的数据中查找它们。所有用于训练的数据都需要注上正确的标记,并注上上与你要问机器学习系统的问题相匹配的功能,这需要做很多工作。
不要以为你已经拥有的数据是干净,清晰,有代表性或易于标注的。
迷思:你总是需要很多数据
最近在图像识别、机器阅读理解、语言翻译和其它领域取得的主要进展已经发生了,因为有了更好的工具,可以并行处理大量数据的GPU等计算硬件,以及大量已标记的数据集,包括ImageNet和斯坦福问题回答数据集(Stanford Question Answering Dataset)。但是,由于有一种称为迁移学习(transfer learning)的技巧,你并不总是需要大量数据才能在特定区域获得良好结果。相反,你可以教机器学习系统如何使用一个大型数据集进行学习,然后将其迁移到属于你自己的,更小的培训数据集的学习能力。这就是Salesforce和Microsoft Azure的自定义视觉API的工作原理:你只需要30到50张图像即可显示想要分类的内容,以获得良好结果。
迁移学习可让你使用相对较少的数据为你自己的问题定制预先训练好的系统。
迷思:是人都能创建机器学习系统
市面上有很多用于机器学习的开源工具和框架,以及无数课程向你展示如何使用它们。但机器学习仍然是一项专门技术;你要知道如何准备数据并对其进行分区以进行训练和测试,你要知道如何选择最佳算法以及使用何种启发式算法,以及如何将其转化为可靠的生产系统。你还要监视系统,以确保结果始终保持相关性;无论你的市场变革还是你的机器学习系统是否好得使你最终会遇到不同的客户群,你需要继续检验该模型是否符合你的问题。
要彻底把机器学习弄明白是需要经验;如果你刚刚开始使用API,则可以使用API预先训练模型,在获取或聘用数据科学和机器学习专业知识来构建定制系统时,你可以从代码中调用该模型。
迷思:数据中的所有模式都是有用的
哮喘患者,胸痛或心脏病患者以及任何期颐之年的人的肺炎的存活率远高于你的期望。实际上,好到只要有一个简单的用来将入院程序自动化的机器学习系统就可以让他们安然无恙地回家(一种基于规则的,和神经网络一样受训于相同的数据的系统就能做到这个)。不幸的是,他们有如此高的存活率的原因是,他们总是立即入院,因为肺炎对他们来说非常危险。
系统见证了数据中的有效的模式;这对于选择让谁入院来说并不是一种有用的模式(尽管它可以帮助保险公司预测治疗费用)。更危险的是,除非你已经了解它们,否则你不会知道这些无用的反模式出现在你的数据集中。
在其它情况下,一个系统可以学习一种有效的模式(比如争议颇多的面部识别系统,它可以准确地从自拍照中预测性取向),然而它没有清晰明确的解释,所以没有用(在这种情况下,照片看起来似乎显示了姿势这样的社交线索而不是天生的任何东西)。
“黑匣子”模型是高效的,但它没有澄清他们到底学到了什么模式。像广义加性模型(Generalized Additive Model)这样的更透明,可理解的算法可以更清楚地了解模型的学习内容,从而让你决定它是否适用于部署。
迷思:强化学习随时可以使用
几乎所有当今使用的机器学习系统都使用监督学习;在大多数情况下,他们接受了人类参与准备的明确标记的数据集的培训。管护这些数据集需要时间和精力,所以人们对非监督形式的学习,特别是强化学习(RL)有很大的兴趣——在这里,艾真体(agent)通过试错法学习,通过与环境交互并因为正确的行为而获得奖励。DeepMind的AlphaGo系统使用强化学习与监督式学习一同战胜了最高段位的围棋选手,而由卡内基梅隆大学的团队建立的系统Libratus使用强化学习和另外两种人工智能技术在无限德州扑克击败了一部分世界上最好的扑克玩家(具有漫长而复杂的投注策略)。研究人员正在用机器学习对一切进行强化试验——从机器人技术到安全软件的测试。
强化学习在研究领域之外并不常见。谷歌使用DeepMind学习更高效地降低数据中心的温度,从而节省数据中心的电力;微软使用强化学习的一个特别版本,称为上下文赌博机(contextual bandit),它为MSN.com的访客定制个性化的新闻头条。问题在于很少有现实环境有可轻易发现的奖励和即时反馈,当艾真体在发生任何事情之前采取多项行动时,分配奖励就尤其棘手了。
迷思:机器学习没有偏差
由于机器学习从数据中学习,它将复制数据集中的任何偏差。搜寻首席执行官的图像可能会显示白人男性首席执行官的照片,因为有更多的首席执行官通常是白人男性。但事实证明,机器学习也会放大偏差。
经常用于训练图像识别系统的COCO数据集具有男性和女性的照片;但更多的女性是在厨房设备旁边得到展示,更多的男性则和电脑键盘和鼠标或网球拍和滑雪板一起得到展示。在COCO上训练系统,它会比原始照片中的统计数据更强烈地把男性和计算机硬件联系起来。
一个机器学习系统也可能给另一个机器增加偏差。训练这样一个机器学习系统——它具有将单词表征为向量的流行框架——来表示词之间关系的向量,它将学习像“男人之于女人正如计算机程序员之于家庭主妇”或医生之于护士正如老板之于前台那样的刻板印象。如果你使用这样的系统,这个系统把那些具有他和她这样的代词的语言(如英语)翻译成具有中性代词的语言(如芬兰语或土耳其语),那么“他们是医生”就会变成“他是医生”,“他们是护士”变成“她是护士”。(译注,最后一句话有点费解,但是结合中文网络用语中诞生的新代词TA就不难理解了,因为不确定被指称的人的性别,所以写作TA,而不是他或她,相当于英语的he or she,而有些语言中则用复数形式表示中性性别,如they表示he or she,这里可以理解为they=TA,把这个中文新词套进去就不难理解了)
在购物网站上获得类似的建议是有用的,但在涉及敏感领域时会产生问题,并且会产生反馈回路;如果你加入反对疫苗接种的脸书群,脸书的推荐引擎将建议其它关注阴谋论或者认为地球平的群。
了解机器学习中的偏差问题是很重要的。如果你无法消除训练数据集中的偏差,请使用规则化词对之间的性别关联等技术来减少偏差或将不相关的项目添加到建议中以避免“过滤气泡(filter bubble)”。
迷思:机器学习只用于做好事
机器学习为防病毒工具提供了强大的功能,并着眼于全新攻击的行为,以便一出现就能发现它们。但同样地,黑客也正在使用机器学习来研究防病毒工具的防御措施,并通过分析大量公共数据或分析以前的网络钓鱼尝试的成功来大规模地制作有针对性的网络钓鱼攻击。
迷思:机器学习会取代人