机器学习崭露头角 九大认知误区早知道

实践证明,机器学习技术确实具有强大的实用度,因此很多朋友会误以为其能够解决一切问题并适用于所有情况。但事实上,与其它工具一样,机器学习也只是在特定领域非常强大——例如长期困扰着您,但您永远无法雇用足够的人手来解决的问题; 或者拥有着明确目标,但没有明确实现方法的问题。

机器学习崭露头角 九大认知误区早知道

当然,各类组织机构都能够通过各种方式运用机器学习的强大能力。根据埃森哲公司的调查,42%的企业高管表示他们预计人工智能将在2021年时被引入其全部创新项目。然而,要想真正发挥机器学习的全部潜能并借此实现以往所不可能实现的目标,下面这些误区必须加以破除。

误区一:机器学习就是人工智能

机器学习与人工智能常常被作为同义词使用,但更具体地讲,机器学习是一种成功由研究实验室走入现实世界的技术,而人工智能则属于一类广泛的领域——其中涵盖计算机视觉、机器人与自然语言处理等可能并不涉及机器学习的方向。事实上,大家可能将人工智能理解为给机器赋予智能的一切相关手段。另外需要强调,二者都不会带来普通民众所畏惧的“拥有自主意识的人工智能”或者会与人类竞争甚至发动攻击的产物。

请注意具体用词并尽可能准确表述。机器学习属于同学习模式及大数据集预测相关的结果; 其结果看起来具备“智能”,但其核心则在于前所未有的处理速度与统计数据的大规模应用。

误区二:所有数据都很有用

我们需要为机器学习方案提供数据,但并非所有数据皆可用于机器学习。为了进行系统训练,大家需要的是有代表性的数据,用以涵盖机器学习系统所应处理的各种模式及结果。我们需要的数据不应包含不相关的模式(例如照片中所有男性皆站立,所有女性皆坐下; 或者所有车辆都在车库内,而所有自行车都在户外等等),这是因为您所创建的机器学习模型将直接反映出那些过于具体的模式,并在所提供的数据中反复加以验证。所有用于训练的数据都需要添加标签,同时与您打算让机器学习系统回答的问题相匹配——这无疑需要大量处理工作。

总之,请不要假设您掌握的数据已经非常清晰、明确、有代表性或者易于标记,这实在是一项耗神耗力的庞大工程。

误区三:您总是需要大量数据

最近一段时间,图像识别、机器阅读理解、语言翻译以及其它重要领域已经出现了一系列关键性进展,这主要是由于我们拥有了更为强大的工具选项——包括能够并行处理大量数据的GPU等计算硬件,外加ImageNet与斯坦福问答数据集等经过标记的庞大数据集合。然而,迁移学习技术也在快速兴起。利用这种技术,我们无需大量数据即可在特定领域内获得良好的结果。我们可以教授机器学习系统如何利用一套大型数据集完成学习,而后将其迁移至自己的小型训练数据集内。这也正是Salesforce与微软Azure提供的自定义视觉API的起效原理:只需要30到50张图像,即可获得良好的内容分类能力。

迁移学习能够帮助大家利用相对较少的数据,根据需要解决的问题对预先训练好的系统加以定制。

误区四:任何人都能够构建起机器学习系统

目前市面上存在大量机器学习类开源工具与框架,网络上也拥有无数讲解具体使用方法的课程。然而,机器学习仍然是一项专业性极强的技术; 我们需要了解如何准备数据并对其进行分类,从而用于训练及测试; 我们需要了解如何选择最佳算法以及使用哪种启发式算法; 我们还需要思考如何将其转化为可靠的生产系统。此外,大家还需要监控系统以确保结果能够随时间推移而持续有效。毕竟无论是市场变化还是客户群体转换,机器学习系统面临的问题都在快速变化,因此我们需要持续追踪相关模型以判断其是否仍适用于当前问题。

让机器学习拥有正确的处理能力需要丰富的经验; 如果您刚刚开始进行尝试,不妨先利用API接入预先训练完成的模型,或者聘用数据科学家就机器学习专家为您构建定制化系统。

误区五:数据中的所有模式都很有用

患有哮喘、胸痛或心脏病以及任何100岁以上的肺炎患者的存活率远高于预期。实际上,一套简单的机器学习系统往往会得出这样的结论(这类基于规则的系统以神经网络方式进行数据训练)。遗憾的是,他们之所以拥有更高的生存率,是因为对这类人群而言,肺炎往往非常致命因此会得到高度重视与快速诊治。

这套系统能够从数据当中发现有效的模式; 然而,根据实际应用场景的不同,这些模式并不一定拥有现实意义。更可怕的是,除非意识到这些模式的具体判断机制,否则我们很可能根本无法发现自己的数据集中存在着哪些无用的反模式。

另外,系统也可能会学习到一种虽然实际起效,但却会因为无法作出明确解释而不能实践使用的模式——例如目前存在争议的面部识别系统,其能够准确预测自拍者的性取向,但却无法给出具体理由。

这种“黑匣子”模型虽然非常高效,但无法表达其学习到了怎样的模式。因此,更易于理解的通用附加模型等透明算法往往更适合自我表达,从而帮助使用者判断其适合哪些部署场景。

误区六:强化学习已经做好充分准备

当前使用的几乎所有机器学习系统都在使用监督学习技术; 在大多数情况下,其需要接受由人类参与准备、且拥有明确标记的数据集进行训练。筹备这些数据集需要投入大量时间与精力,因此目前业界对非监督式学习,特别是强化学习(简称RL)抱有极大兴趣——在这类方案当中,模型将通过反复试验性学习以及与环境的交互获得正确行为奖励。DeepMind的AlphaGo系统即利用强化学习配合监督学习一举击败世界顶尖围棋选手,而由卡内基梅隆大学构建的Libratus系统则利用强化学习及其它两种人工智能技术轻松碾压全球最强的德州扑克玩家(这种扑克游戏以复杂的投注策略而著称)。研究人员正在尝试利用强化学习实现从机器人到安全软件测试的各类实践工作。

但在研究领域之外,强化学习的应用还比较少见。谷歌DeepMind利用强化学习以降低数据中心功耗,从而节约基础设施电力成本; 微软则在其MSN.com当中使用强化学习的一套特殊版本——contextual bandits,用于为访问者提供更具个性化的新闻推荐。不过问题在于,真实环境很难快速提供奖励与即时反馈,这意味着强化学习真正步入实践仍有很长的道路要走。

误区七:机器学习不存在偏见

由于机器学习会从数据当中学习模式,因此其也会直接继承数据集中的一切偏见。其可能会将CEO与白人男性联系起来,因为出任CEO的群体中白人男性比例更高。更可怕的是,机器学习往往还会放大这种偏见性结论。

常被用于训练图像识别系统的COCO数据集中包含大量男性与女性照片;然而更多女性在照片中身处厨房之内,更多男性则身处包含电脑键盘、鼠标或者网球拍及滑雪板的场景下。如果利用COCO进行系统训练,则其会认定男性更倾向于使用计算机硬件——这一点与原始照片中的统计数据并不相符。

另外,一套机器学习系统也可能给另一套机器学习系统带来偏见。在训练机器学习系统进行词汇表达时,目前的各类主流框架会将词汇作为向量进行关系表达。在这样的学习中,结论中往往存在“计算机程序员更偏向男性,家务工作则更偏向女性; 医生更偏向男性,护士更偏向女性; 老板更偏向男性,文员更偏向女性”等刻板印象。

了解机器学习中的偏见问题非常重要。如果无法彻底消除训练数据集中的偏差,请大家使用规则化等技术处理词汇中的性别关联,从而减少偏差或者避免将不相关项目添加到建议当中。

误区八:机器学习仅会带来善意用途

机器学习为反病毒工具提供强大的能力,并可帮助其尽快发现全新攻击行为。但与此同时,黑客们也在利用机器学习研究如何攻克反病毒工具的防御体系,并通过分析大量公开数据或分析以往成功的网络钓鱼尝试,指导后续攻击活动的设计思路。

误区九:机器学习将取代人类

人们常常担心人工智能会夺走我们的工作岗位。没错,其确实会改变我们的工作内容以及工作方式,同时提高效率并降低合规性成本。事实上,从长远角度来看,其会在企业当中创造新的职能角色,并消除一部分现有职位。然而,机器学习的主要价值,仍然体现在完成一些此前因复杂性或规模水平限制而不可能以自动化或人工形式实现的任务——例如查看发布至社交媒体上的每张照片,并分析其中是否包含某些品牌特征。

相关推荐