数据科学究竟是什么?
摘要: 本文是关于数据科学的概述和讨论,包括数据挖掘,统计推断,机器学习,数据工程等等。
数据科学是一门将数据变得有用的学科。它包含三个重要概念:
- 统计
- 机器学习
- 数据挖掘/分析
数据科学的定义
如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:
- 大数据意味着计算机的使用频率增加。
- 统计学家很难将纸张上所写算法用计算机实现。
由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。
推特给出的定义circa 2014
2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。
之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。
Drew Conway对数据科学的定义
维基百科上对数据科学的定义更接近于我给学生讲授的内容:
数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。
简单来讲:数据科学是一门将数据变得有用的学科。
现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”
先看下图,该图内容与维基百科给出的定义十分契合:
这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?
统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。
新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。
我建议可按如下方式进行区分:
None-One-Many
这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。
我们的行动和决定会影响到我们周围的世界。
接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。
下图是决策导向图,您可以通过以下三步让数据变得有用。
数据挖掘
如果你不知道你要作何决定,最好的办法就是去寻找灵感。这就是所谓的数据挖掘、数据分析、描述性分析、探索性数据分析或知识发现。
分析的黄金准则:只对你所见的下结论。
除非你知道如何制定你的决策,否则就从寻找灵感开始吧。做法很简单,只需要你将数据集想象为你在黑暗的房间中发现的一堆底片。数据挖掘就是让设备尽可能快地公开所有的图片,这样你就能看到这些图片上是否有什么鼓舞人心的东西。和照片一样,不要把你看到的东西想得太严肃。你没有拍这些照片,所以你对屏幕之外的东西了解不多。数据挖掘的黄金法则是:只对你能看到的做出结论,不对你看不到的做出结论,因为你需要统计数据和更多的专业知识。
除此之外,你还应尽力做到最好。数据挖掘的专业知识是通过检查数据的速度来判断的,不要迷恋那些看似有趣的东西。
暗房一开始很吓人,但其实也没什么大不了的。只要学会操作设备就行。这是R语言的教程,这是Python语言的教程。当你开始玩得开心时,你可以称自己为数据分析师,当你能够以闪电般的速度曝光照片以及所有其他类型的数据集时,你就可以称为专家分析师。
统计推断
灵感很容易获取,但严谨却很难做到,如果你想掌握数据,则需要专业课程的学习。作为一名统计学专业的本科生和研究生,我认为统计学推论(简称统计学)是这三个领域中最难且最具哲学思想的。想要做好它需要花费不少的时间。
如果你打算做出高质量且风险可控的决策,由于决策不仅仅依赖你所得到的数据,此时你需要在你的分析团队中加入统计技能。
在情况不确定的时候,或许统计学能够改变你的想法。
机器学习
机器学习从本质上来讲,是使用示例而非指令来实现操作的。我也曾写过一些关于机器学习的文章,包括机器学习与人工智能有何不同、如何入门机器学习、企业运用机器学习的经验教训以及向孩子介绍监督学习等。
数据工程
数据工程指的是将数据传递给数据科学团队的工作。它本身就是一个复杂的领域,通常而言,它更接近于软件工程,而不是统计学。
数据工程与数据科学的差异是前后的区别。
获取数据之前的大部分技术工作都可以被称为“数据工程”,而获取到数据后我们所做的一切都是“数据科学”。
决策智能
决策智能是关于决策的,包括基于数据的大规模决策,这使得它变成了一门工程学科。利用社会和管理学科的观点,增强数据科学的应用。
决策只能是社会和管理学科的组成部分。换句话说,它是这些数据科学的超集,而不涉及为通用用途创建基本方法之类的研究工作。
以上为译文
阿里云云栖社区组织翻译。
文章原标题《What on earth is data science?》,作者:Cassie Kozyrkov,译者:Elaine,审校:袁虎。