机器学习的未来是怎样的?

机器学习的未来是怎样的?

机器学习

本文译自 | 知乎

作者 | Sridhar Mahadevan 系Director, Data Science Lab, Adobe Research,


有很多方法可以回答这个重要问题:金融,知识,社会和政治。从业务增长和经济安全到科学发展和政治影响,ML已成为许多领域的主要力量,很难评估其在未来几十年的影响。

让我们从明显的,经济和社会影响开始。我们举一个例子吧。就在昨天,Facebook的联合创始人在纽约时报写了一篇慷慨激昂的专栏文章,呼吁美国政府拆除Facebook,因为他说,我引用,“马克的影响力是惊人的,远远超过其他任何人的影响力在私营部门或政府“。

意见 | 是时候和Facebook说再见了 https://www.nytimes.com/2019/05/09/opinion/sunday/chris-hughes-facebook-zuckerberg.html

Facebook及其相关产品现在已经覆盖全球60亿人口。这是一个惊人的数字,按照任何标准,并没有在这个问题上采取这样或那样的个人立场(我目前没有Facebook帐户,从来没有一个!),在很大程度上使Facebook强大的是能力通过机器学习消化大量关于人的个人信息。

当然,它不受Facebook限制。其中包括谷歌,亚马逊,特斯拉,优步等。实际上,每个面向人才的主要公司现在都使用机器学习工具来收集客户信息,并寻求利用他们的数据获得商业利益。这个过程没有任何内在的错误或险恶,但是许多观察者的警告是,机器学习的工具现在如何使个人拥有巨大的力量,远远超过人类历史上任何国王或王后。机器学习使这成为可能。

在整个人类历史中提供如此巨大力量的每项技术,包括核武器,海军武装,战车,以及现在的机器学习软件,都需要谨慎使用。因此,随着机器学习的力量不断增强,其影响将变得越来越显着,而且正如欧盟对GDPR所做的那样,各国将通过施加一定程度的控制来慢慢开始控制机器学习。这种情况会在多大程度上影响机器学习继续成为业务中的主导技术,但据我所知,我认为短期内不会发生任何影响机器日益增加的部署学习和数据挖掘工具。

在全球范围内使用机器学习的一个重要问题是问题,不仅是隐私问题,还有公平问题。机器学习的模型将反映数据中固有的偏差,并且机器学习系统中存在性别和种族偏见的文档记录正在引起警报。机器学习用于学习人脸识别模型,并且有充分的理由在过度依赖这些模型时要谨慎。

亚马逊的面部识别错误地识别了28位立法者,A.C.L.U。说 https://www.nytimes.com/2018/07/26/technology/amazon-aclu-facial-recognition-congress.html

在科学影响方面,机器学习正在迅速进入所有科学领域。根据我自己的经验,在过去的几年里,我积极参与了一个令人兴奋的项目,涉及应用机器学习来分析来自火星探测器,好奇号的数据。我亲眼目睹了机器学习方法对行星科学家,化学家和天文学家的影响,他们很快就看到了能够从数据中获得复杂映射的巨大好处。

例如,好奇号使用LIBS(激光诱导击穿光谱)仪器来消除岩石,并将发射光谱反射回地球。得到的光谱(6000维矢量)告诉行星科学家关于火星上岩石成分的一些信息。传统上,行星科学家使用简单的规则来检查光谱中的峰值:如果你看到这个峰值,那么它可能揭示了二氧化硅(SiO2)等的存在。那么,现在,借助现代机器学习工具,我们能够显示如何基于一组涉及地球上的岩石的标记数据,可以在几毫秒内快速提供更准确的火星岩石分析,甚至可以辨别哪些激光读数被忽略,因为它们被污染了火星尘埃。这只是机器学习能力影响许多科学研究的一个很小的例子,从生物学到社会学。

撇开这些经济问题和应用领域,人们可以问机器学习本身的主要挑战是什么。对我来说,如果我不得不总结一下ML面临的主要挑战,我将把主要的开放问题描述如下:

  • 大型数据集并不总能带来成功:这一点比语言更明显。支持ML的语言模型现在可以在文本数据集上运行,这些数据集比单个人在其生命周期内可读取的任何数据量都大许多个数量级。然而,基于文本的学习方法尚未接近人类理解语言的能力。人类在许多方面使用语言,从命令到提问,到诗歌和隐喻等创造性用途。以艾米莉狄金森的这首优美诗歌为例。她是世界著名的诗人,住在马萨诸塞州西部的一个小镇阿默斯特,在那里度过了16年。谁可以否认她的诗歌的美丽和深度?任何语言学习系统都可以理解,更不用说产生这样的诗歌吗?

“因为我不能停步等候死神 ,他殷勤停车接我,车厢里只有我们俩,还有“永生”同座。“--艾米莉·狄金森

  • 解释大脑是如何产生思维的:当前对神经活动如何导致智能行为的解释是非常不充分的,完全不现实。人类不需要数百万只狗的例子来告诉他们除了猫。一些神秘的梯度下降程序正在调整我们感知的每一个图像,声音或活动的数千亿神经连接的突触强度,这是完全不可信的。当我们看到单个神经元在很大程度上使用一种摩尔斯电码相互通信时,这种解释变得更加难以置信,从而发送尖峰信号串。怎么能用渐变方法调和呢?这仍然是一个谜。
  • 整合知识和学习:当前的统计学习系统在能够代表世界的关系丰富性方面是不够的。目前,一切都被转化为“载体”,这对于代表社会和政治网络如何代表世界的丰富性,而不是科学网络,实在是非常不公平。孩子们在童年早期经历了一系列的智力跳跃,由皮亚杰和其他发展心理学家的作品精心记录。皮亚杰展示了孩子们如何逐渐发展出“对象”的抽象概念。从未开发过可以学习对象的抽象概念的机器学习系统。没有深度学习系统能够查看场景,并计算场景中的物体数量,这是一个三岁的孩子可以轻松做到的事情。

所有这些挑战都将由未来的研究人员解决,正如他们所做的那样,机器学习的力量将不可避免地增长。 ML的终极力量难以衡量,因为它将在很大程度上取决于社会和政治问题,但在可预见的未来,可以肯定地说ML的影响力只会飙升。

相关推荐