机器学习=数据科学?N大区别要搞清

机器学习=数据科学?N大区别要搞清

(图片来自Intersection Consulting公司)

当提到“数据科学”与“机器学习”的时候,有没有觉得两者有着诸多交叉而难以区分?如果是,那你必须读一读这篇文章。

本文阐释了“数据科学”与“机器学习”之间几个重要且易被忽视的区别,以帮助你更好地理解和学习,供你在学习生涯、职业道路选择方面参考。

机器学习=数据科学?N大区别要搞清

机器学习与数据科学

如今媒体在大肆炒作“机器学习”的概念,但是他们却常常不注意自己的用词。在大众认知里,机器学习具有广泛意义的内涵,远远超过从业者所接触到的范围。

机器学习是数学优化的一种特定形式:通过训练数据或经验,无需显示编程,而使计算机更好地完成某项任务。

具体过程如下:根据过去结果已知的案例建立模型,然后运用此模型对未来情况做出预测,想办法使数值“误差”或“成本”函数最小化(指预测结果与实际结果之间的误差)。

请注意,一些重要的商业活动不在此定义的范围之内:

1. 检测数据是否匹配某个目标

2. 制定合适的目标

3. 执行系统与流程

4. 与不同利益相关者交流

人们对以上功能的需求使得数据科学成为一个独立领域。《哈佛商业评论》告诉我们:数据科学家的关键技能不是建立使用深度学习基础架构的能力,而是快速的学习能力与良好的沟通能力,以回答商业问题,向外行的利益相关者解释复杂的结果。

其他作者也表示赞同:“我们认为,数据科学家最重要的特质是拥有多项技能——至少能够单独完成原型级版本的所有步骤,以获得新的见解,或是打造数据产品。”

《哈佛商业评论》的其他文章也证实说:“机器学习的价值不在于更高级的算法,而在于让它使用起来更加容易……对大多数公司来说,差距不在于机器学习不起作用,而是它实际操作起来十分困难。”

机器学习只是数据科学家掌握的诸多技能中的一项,而非全部。将机器学习等同于数据科学,就像是将会计等同于运营一家盈利的公司一样。另外,数据科学的技能差距很大程度上体现在机器学习的互补领域——商业敏感、统计、问题框架与沟通交流。

机器学习=数据科学?N大区别要搞清

想成为数据科学家,寻求跨学科教育吧

毫无疑问,整个社会对数据科学家的需求越来越大。尽管如此,大多数广受吹捧的数据科学教育计划却往往集中在机器学习的课堂中。

这是个很严重的问题。许多学生过分关注机器学习课程,不注重课程的平衡,由此产生了一大批想做数据科学却又准备不充分的职场新手。

很多数据科学招聘经理都在面试时遇到过这样的候选人:他们竭力夸大自己对机器学习的了解,却几乎不清楚基础统计、偏差与方差,或是数据质量,更别说提出一个连贯的项目提案来完成商业目标了。

根据诸多内行人的经验,软件工程师似乎特别容易受到机器学习教育背景的影响。可以推测,这是因为机器学习所运用的思维方式与软件工程师早已习惯的模式一样:算法式的、目标明确的聚合性思维。

机器学习的高度专业化教育看起来能够保证学生找到更有趣的工作,还不要求任何基本认知的转变。但遗憾的是,就业市场很少兑现这一承诺,许多踏上这条道路的人发现自己根本无法从工程师转变为一名科学家。

数据科学需要掌握一种不同的思维模式:常常是发散的,定义不明的,且需要在技术领域不断来回转换。数据科学家基本上是通才,受益于广泛而非深入的教育。更擅长于进行跨学科研究,而不是单一领域研究。

机器学习=数据科学?N大区别要搞清

可扩展性与非可扩展性工作

在招募研究机器学习的专才之前,先招募通才型的数据科学家,会使大多数企业创造出更大的价值。要想明白其中的原因,就需要先了解可扩展与非可扩展性工作的差别。

建立通用的机器学习算法属于可扩展性工作——一旦有人设计并运行了某个算法,其他所有人都可以使用这个算法并且几乎没有复制成本。当然,每个人都想使用由最好的研究人员研发的最强的算法,但是大多数公司都雇不起顶级算法设计师。万幸的是,公众可以通过研究论文、开源库与云API了解顶级大牛们的大部分成果。因此,世界上最厉害的机器学习算法设计师具有巨大的影响力,通才型的数据科学家得益于他们的成果,也能创造出巨大的影响。

相反,数据科学属于不可扩展性工作。它需要了解某个特定公司的业务、需求和资产的具体情况。大多数具有一定规模的企业都需要自己的数据科学家。即使其他公司的数据科学家公布了具体方法,但几乎可以肯定的是,公司之间的某些问题和情况存在差别,别人的方法是不能完全照搬的。

当然,除了数据科学之外,还有许多有价值又有趣的职业。如果你正在考虑机器学习方面的职业,你得知道一个行业秘密:大公司里的机器学习工程师实际上很少做与机器学习相关的事情。相反,他们将大部分时间用于构建数据处理流水线与模型部署基础架构。如果你确实想做这些工作的话(往往也是很厉害的工作),我们仍然建议你别将学习重点仅放在机器学习算法上,要多学习通用工程,DevOps操作和数据流水线基础架构的知识。

虽然比起世界上最好的数据科学家,最好的机器学习专家可能能在人类知识方面做出更大的贡献,但是老练的数据科学家能在更为广泛的领域上发挥巨大的影响力。就业市场的实际情况就反映了这一点。如果你正在找工作,将机器学习教育仅当作“均衡膳食”的一部分,可能会让你找到最好的工作;如果你希望提高公司的数据化水平,那你可能需要招募一位数据科学通才。

要警惕当下媒体的过度炒作,如果过度专注于机器学习,不学习基础知识,也不精通机器学习的互补领域,那么你在就业市场中并不会想预想的那样受欢迎。

机器学习=数据科学?N大区别要搞清

编译组:吴梦涵、赵璇

相关链接:

https://www.kdnuggets.com/2018/12/learning-machine-learning-data-science.html

如需转载,请后台留言,遵守转载规范

相关推荐