为什么机器学习之路没有捷径可走？

zhongjunlang

2018-09-21

为什么机器学习之路没有捷径可走？

来源：AI前线

本文约2200字，建议阅读6分钟。

正确进行数据科学研究不仅仅是一个调整模型的问题。

[ 导读 ]机器学习如火如荼。很多公司都想走捷径，试图实现“弯道超车”。但是，机器学习之路是没有捷径可走的，也需要厚积薄发。妄图跳过这些阶段实现“弯道超车”无异于揠苗助长。所谓“弯道超车”，大意是说中国有“后发优势”，可以充分借鉴欧美的先进技术，不用斥巨资搞研发就能赶超欧美。这根本就是错误的思想，这种投机取巧的心理非常危险。

要知道，像 Google 、Microsoft、Facebook 等高科技企业，每年研发费用都在 100 亿美元左右，美国之所以能够成为世界科技强国、科技大国，就因为他们舍得花钱搞研发，耐得住寂寞去搞研发。小编真心希望，国人能够摒弃“走捷径”、“抄近道”、“弯道超车”这种投机取消的心理，沉下心来，踏踏实实去学习，搞研究，不要再出现“汉芯”、“红芯”这样的事件了，只有这样，我们才会有未来。

为什么机器学习之路没有捷径可走？

大数据仍然是少数人的游戏——只占 1%。不过据 O'Reilly 最新的调查数据，这一比例为 15%。这一调查显示，大多数企业（高达 85%）并没有掌握人工智能和机器学习的精髓。仅有 15%“复杂”的企业在生产中运行模型超过 5 年。重要的是，这类公司倾向于在模型偏差（model bias）和数据隐私等关键领域投入更多的时间和精力，而新手们却还在苦苦寻找入门的途径。

注：O'Reilly 的调查见《The State of Machine Learning Adoption in the Enterprise》http://u6.gg/ewdrm

不幸的是，对于那些希望通过抄近道（如使用 Google AutoML）或者通过有偿顾问来缩小数据科学差距的公司来说，答案似乎是：要掌握数据科学，需要时间，没有捷径可走。

聪明的公司专注于数据的深层次

首先，有一点需要注意的是，O'Reilly 的调查数据是来自一群自我选择的人：参加 O'Reilly 的活动或通过网络研讨会，或其他方式与公司合作过的人们。这些人对数据科学非常感兴趣，即使其中大多数人并没有真正利用过数据科学（如调查数据所示）。然而，对于那些沉迷于大数据体验的人来说，这是一个伟大的群体，那些被称为“复杂的”人们拥有在生产中运行模型超过五年以上的经验。

这次调查中，有一个有趣的数据就是这些人如何谈论自己。拥有丰富数据经验的公司将数据科学称为“数据科学”。如图所示，那些还受困于 90 年代“数据挖掘”思维模式的人们更喜欢“分析师”这一称号：

为什么机器学习之路没有捷径可走？

无论公司如何称呼他们的数据专家，企业拥有人工智能和机器学习的经验越多，他们就越有可能依赖内部数据科学团队来构建企业的模型，如下图所示：

为什么机器学习之路没有捷径可走？

实际上，没有人指望云机器学习服务（至少就目前来讲还没有），而那些拥有不到两年生产经验的公司则倾向于依靠外部顾问来构建机器学习模型。对这些公司来说，这可能是一个机会，可以无需在人员下血本就能够从数据科学获得好处，但这种做法着实很愚蠢。

使用数据的公司越复杂，他们的数据科学团队构建模型的能力就越高，并且能够评估项目成功的关键指标。在所有公司中，产品经理倾向于定义项目成功指标（36%），执行管理（29%）和数据科学团队（21%）也参与其中。

但对于经验丰富的公司来说，尽管产品经理仍然是被引用最多的（34%），但数据科学领头人（27%）与执行主管（28%）大致相当。

经验最少的公司则倾向于寻求依靠高级管理层（31%），很少依靠他们的数据科学领头人（16%）。这些都不是问题，因为数据科学团队完全有能力找出如何使用数据并衡量其成功与否。

很多时候，是问道于盲

这种依赖高级管理层来推动数据科学的做法，让人联想到一项调查（详见 http://u6.gg/ewc7t），这项调查显示，高管们自称是数据驱动型的，但忽略了那些不支持直觉决定的数据（62% 的人承认自己就是这么做的）。

对大数据缺乏悟性的企业，似乎口头上承认数据的重要性，但他们并不理解有效数据科学的细微差别。他们缺乏必要的经验，而这种经验能够确保他们收集有意义的、没有偏见的数据见解。

当 Gartner 的 Andrew White 谈到理解机器学习模型以及如何在结果中培育信任时，那些更为复杂的企业就会明白他这一言论背后的意义：

人工智能的新颖之处在于，人工智能能够重新划清界限：那些我们认为过于复杂、毫无规律的事务，现在可以用人工智能加以利用。正如我们预期的那样，人工智能可以处理比以往技术更复杂、需更多认知的工作。只有在人工智能的自动化工作有意义的情况下，这一新的现实才能在光天化日之下继续存在。如果这个太过复杂的黑盒子做出了人们无法理解的决策，并改变了结果，那么人们很可能会因此关掉黑盒子。因此，在某种程度上理解决策是非常重要的。但是，理解或解释决策与理解算法的工作方式是两码事。人们应该能够掌握输入、选择、权重和结果的原则，即使算法将这些原则组合到连我们都无法证明其过程的程度。如果结果和近似输入之间的差距过大，那么对算法的信任很可能会失败，这就是人性。注：出处参见《The Difference between Decision Making and AI》http://u6.gg/ewcCq

要达到这种理解水平，并不是用一个顾问的价格就能够买到的。而且，它也不是现成的云机器学习。像 Google 的 AutoML 这样的工具宣称：“让拥有有限机器学习专业背景的开发者能够根据业务需求去训练高质量的模型。”这听上去真是太棒了！但是，要想从数据科学中得到好处，还是需要具备数据科学的经验。这并不仅仅是一个调整模型的问题，而是要知其然知其所以然。需要进行多次的反复试验才能达到这种境界。

此外，正确进行数据科学研究需要一种文化心态，而这种文化心态同样也来自经验。捷径，是不存在的！这意味着，那些较早投资数据科学领域的公司，应该会发现，与那些没有竞争优势的同行相比，自己占据领先地位，而这种优势很可能会持续下去。

对于那些希望迎头赶上的公司而言，Gartner 分析师 Svetlana Sicular 的经典建议依然是正确的：“公司应着眼于内部。比神秘数据科学家更了解自己数据的人，其实就在公司内部。”只要公司能够明白优秀的数据科学家的养成是需要时间的，并为这些人提供学习和成长的空间，他们就不会寻求什么捷径。

原文链接：https://www.infoworld.com/article/3297063/machine-learning/why-there-are-no-shortcuts-to-machine-learning.html?upd=1534978424699

机器学习数据科学人工智能

zhongjunlang

0 关注 0 粉丝 0 动态

相关推荐

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 15评论 2020-11-09

IT自动化和人工智能将在2021年走向何方?

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

EastCarFxxBlog 10评论 2020-11-09

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 10评论 2020-11-06

数字营销：AI如何“看透”人类行为模式？

人工智能在市场营销领域取得的成功，揭示了人类的一些思维和行为模式，这些模式可以转化为其他应用程序。市场营销业已成为AI创新的试水之地，尤其是在人类行为建模和AI与人类交互探究层面更具实验价值。目前AI的局限性阻碍了机器使用溯因推理或创造性思维的能力。AI已

lizhengjava 3评论 2020-11-05

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 12评论 2020-11-12

zhongjunlang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号