了解机器学习 只需了解“三大法宝”
从综艺节目《危险边缘》(Jeopardy)的赢家和围棋大师,再到不光彩的、与广告有关的种族定性,我们似乎进入了一个人工智能发展飞速加快的时代。但是,要创造出这样一个完全有感知能力的人——他的电子“大脑”能够利用公平的道德判断来完全参与复杂的认知任务,目前我们的能力还不能做到。
不幸的是,目前的事态发展让人们普遍担心人工智能未来可能会变成什么。它在最近流行文化中的表现表明,我们对这项技术的态度是多么谨慎和悲观。恐惧的问题在于,它可能会造成严重的后果,有时还会助长无知。
了解人工智能的内部运作是解决这些忧虑的一剂良药。而且,这种认真可以促成负责任的和令人放心的参与。
人工智能的核心基础是机器学习,这是一种优雅而又广泛使用的工具。但要理解机器学习的意义,我们首先需要研究它的潜力是如何绝对超过它的坏处的。
数据是关键
简单地说,机器学习指的是教计算机如何通过算法来分析数据从而解决特定任务。例如,对于手写识别,可以通过分类算法,从而分辨出不同人所写的字母。另一方面,住房数据集利用回归算法,以可量化的方式来评估某一财产的售价。
那么,机器学习最终归结为数据。几乎每一个企业都会以这样或那样的方式产生数据: 请想想市场研究、社交媒体、学校调查和自动化系统。机器学习应用程序试图在大数据集的混乱中找出隐藏的模式和相关性,从而开发能够预测行为的模型。
数据有两个关键要素——样本和特征。前者表示组中的单个元素;后者则表示它们所共有的特征。
以社交媒体为例:用户是样本,他们的使用可以被翻译为特征。例如,facebook将“赞”活动的不同方面(用户之间不尽相同)作为用于定向投放广告的一个重要特征。
Facebook好友也可以作为样本使用,而他们与他人的联系也可以作为特征,建立一个可以研究信息传播的网络。
我的Facebook好友网络:每个节点都是一个可能会或可能不会与其他朋友连接的朋友。节点越大,连接就越多。相似的颜色也代表着相似的社会圈子。
除了社交媒体之外,在工业过程中作为监控工具使用的自动化系统,将整个过程的时间快照作为样本,以特定时间作的传感器测量为特征。这使得系统能够实时检测出该过程中的异常现象。
所有这些不同的解决方案都依赖于向机器提供数据,并教它们在有策略地评估给定信息的情况下,实现自己的预测。这就是机器学习。
以人类智力作为一个起点
任何数据都可以被翻译成这些简单的概念,任何机器学习应用,包括人工智能,都将这些概念作为其构建基础。
一旦数据被理解,就该决定如何处理这些信息了。机器学习最普遍、最直观的应用之一就是分类。系统学习了如何根据参考数据集将数据放入不同的组中。
这与我们每天做的各种决定有直接关系,无论是对类似产品进行分组(例如针对美容产品的厨房用品),还是根据以往的经验选择好的电影。虽然这两个例子可能看起来完全脱节,但它们依赖于一个基本的分类假设:被定义为已确定类别的预测。
举个例子,当我们拿起一瓶润肤乳时,我们会使用特定的特征列表(比如容器的形状,或者产品的气味)来准确地预测它是一种美容产品。一个类似的策略是通过评估一组特征(比如导演,或者是演员)来预测电影是否属于两类其中之一:好还是坏。
通过掌握与一组样本相关的各种特征之间的不同关系,我们可以预测一部电影是否值得观看,或者,更好的情况是,我们可以创建一个程序来为我们做这件事。
但要想掌握这些信息,我们需要成为一名数据科学专家,精通数学和统计学,有足够的编程技能让艾伦·图灵(Alan Turing )和玛格丽特·汉密尔顿(Margaret Hamilton)感到骄傲,对吗?不完全是。
在日常生活中,我们都掌握了足够多的母语,即使我们中只有少数人能涉足语言学和文学。数学也一样,它一直都在我们身边,所以从买东西或测量原料到遵循菜谱的变化并非一种负担。同样地,掌握机器学习并不是有意识和有效地对其进行利用的必要条件。
是的,世界上的确有非常优秀和专业的数据科学家,但是,任何人几乎不花费任何努力都可以学习数据的基本知识,并改进他们观察和利用信息的方式。
通过算法来解决问题
回到分类算法上,让我们考虑一个模仿我们做决定的方式的算法。我们是社会的人,那么社会交往呢?第一印象很重要,我们都有一种内部模式,在和别人见面的最初几分钟里,评估自己是否喜欢对方。
有两种可能的结果:好的或坏的印象。对每个人来说,不同的特性(特征)都被考虑在内(即使是无意识的),基于过去的几次相遇(样本)。可能是语气或外表,或者礼貌程度等。
对于我们遇到的每一个新面孔,我们头脑中的一个模型都会记录这些输入,并建立一个预测。我们可以把这个模型分解成一组输入,根据它们对最终结果的相关性进行加权。
对一些人来说,吸引力可能是非常重要的,而对于另一些人来说,幽默感或爱狗则更能说明问题。每个人都将开发自己的模型,这完全取决于她的经验或数据。
不同的数据导致不同的模型被训练,结果不同。我们的大脑会发展出一些机制(虽然我们对此并不完全清楚),但这些机制会确定这些因素将如何影响我们对因素的权重。
机器学习所做的是为机器开发出精确和数学的方法,从而计算结果,特别是在我们无法轻易处理数据量的情况下。现在超过了以往任何时候,数据是巨大、永恒的。有了一个可以积极使用这些数据来解决实际问题的工具,比如人工智能,这意味着每个人都应该并且能够探索和利用这一点。我们应该这样做,这样不仅可以创造出有用的应用,还可以把机器学习和人工智能放在一个更光明、更不令人担忧的角度。
现在有很多资源供机器学习使用,但这些资源确实需要一些编程能力。许多适合机器学习的流行语言都提供从基础教程到完整的课程。只需一个下午的时间,就可以开始冒险,获得明显的结果。