想成为数据科学家?你得先读读这篇文章
本文为你解答数据科学究竟是什么及一个好数据科学家 应具备的品质。
授权转载自:THU数据派
市场营销学者Kevin Gray对肯纳索州立大学研究生院副院长、统计学及数据科学教授Jennifer Priestley做了一个采访,请教数据科学究竟是什么、一个好数据科学家应具备哪些品质以及如何成为一个好的数据科学家,访谈全文如下。
Q:您能否用简单、外行人也能听得懂的话向我们解释数据科学?
A:我认为Slack的数据工程总监Josh Wills给出的定义非常恰当——“(数据科学家是)擅长统计学的软件工程师与擅长软件工程的统计学家的混合体。”,我还想在这里加上我本人的“Priestly推论”:“(数据科学家是)擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。
Q:统计学家和数据科学家之间的区别是什么?
A:这是个好问题。我也经常被问到计算机科学家和数据科学家之间的区别是什么。事实上这两个学科也都在探索隐藏在数据中的新内涵。虽然二者都对数据科学这一新生领域作出了令人瞩目的贡献,他们并非完全独立的。
数据的增长不仅体现在其规模上,还体现在我们对数据这个词定义的延伸上。举个例子,文本和图像已成为日益常见的数据形式并被纳入分类及风险建模等分析范畴中。对数据定义的延伸迫使统计学和计算机科学从各自的传统核心领域进入边缘领域——在这样的边缘领域里,新的思路开始萌发——两个学科在边缘领域的融合成为了数据科学的基础。
统计学的多数传统核心内容还未做好处理以十亿为单位的记录及非结构化数据的准备。同样,计算机科学的核心领域虽然擅长高效获取并存储大量结构化和非结构化数据,但在通过建模、分类和可视化等形式将数据转换成信息的能力上存在短板。
我同意统计学家在数据科学界容易处于弱势的说法。我认为这很不幸。几年前,“简单统计学”(SimplyStatistics)博客发布了一篇名为《为什么大数据陷入了麻烦:他们忘了运用统计学》的文章。这篇文章指出了人们兴冲冲地倒腾机器学习、文本挖掘、神经网络却忽视与数据行为(behavior of date)密切相关的变量、置信度、分布等基本统计学概念,导致了糟糕的决定。虽然数据科学不是统计学,但统计学为这门学科贡献了基础方法。
Q:我们中绝大多数人直到最近几年才听说过数据科学。您能否向我们简要介绍它的历史?
A:这个词最早是计算机科学家Peter Naur在1960年提出的观点,但“数据科学”在统计学中也留下了进化的种子。1962年,John W. Tukey(我们那个年代最为人所熟知和尊敬的统计学家之一)写到:“在很长一段时间里,我认为我是一个统计学家,致力于通过特定样本推断总体的面貌。但自从我看到了数理统计的进化,我发现我真正感兴趣的领域是数据分析……数据分析本质上是一门经验科学。”
1996年,国际分类学联合会(IFCS)在第五次大会中首次使用了“数据科学”一词。大会标题为“数据科学,分类及相关方法”。 1997年,吴建福教授(目前在佐治亚理工学院)在密歇根大学统计系就任H. C. Carver讲席教授的公开演讲中呼吁将统计学更名为数据科学,统计学家更名为数据科学家。
2002年发生了一件数据科学的关键里程碑事件,第一本学术同行评论期刊《数据科学学报》(Data ScienceJournal)正式创刊。此后又出现了其他几个期刊,专门促进和传播这一领域的学术研究成果。
专门的学术期刊的出现对于学术界来说尤为重要——这些期刊促成了新的博士课程(比如我们的)和学术部门,为相关研究、奖学金和发表提供了平台。现在数据科学教师和博士生可以在自己的圈子里——而不是计算机科学、数学、商学的圈子里——开展研究和分享。
Q:2011年麦肯锡作出了一项广为人知的研究预测,在2018年“仅美国一国就会面临14万到19万具备深度分析能力人才的缺口,与此同时存在至少150万名懂得如何运用大数据做出有效决定的管理人员和分析师的缺口。”这个预测有多准确?我们现在有其他替代方案吗?
A:我被问到这个问题很多次了——具体来说,许多公司高管问过我诸如“数据科学这事是否只是一时的风潮?”的问题。我想我们应该重新给这个议题划个框架。
我的观点是,我们不需要具有深刻的分析能力的“19万人”或“150万管理者”。我认为每个人都需要有一定程度的分析技能。我认为基础分析素养应该像阅读、数学一样成为我们的教育体系的基础部分。如今看到越来越多小学里也开始教授基础的编程技巧让我备受鼓舞。在大学的层面,我认为数据科学应成为基础课的一部分。(我现在可以听到我们的教务办公室的人在大喘气了)。
所以,虽然目前的人才缺口是实实在在的,但这是与市场需求不符的教育制度的造成的。各级教育正在转向,并很可能在可预见的将来继续下去。我预计在一代人中,对这些技能的需求不会减少,但供给方面会与之匹配得更密切。
Priestley推论:“数据科学家擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。
Q:许多人,包括那些考虑到职业生涯中期转型的人,已经把目光投向了数据科学。但恐怕并非所有人都适合走这条路。请问数据科学工作中需要哪些能力和技能?成为数据科学家的最佳途径有哪些?
A:这是个绝佳的问题。我们需要做些什么来让我们的下一代准备好,但实际情况是,从20多岁到40多岁的人里很多人正在寻找机会转行进入数据科学领域工作。
我在办公室看到很多这样的人。我已经有不止一次遇上“我刚刚为了拿一张数据科学的文凭向XX大学付了一万美元......而我还是找不到工作”之类的对话。虽说这些“文凭”中的一些很有含金量,但悲剧的是,大部分都是垃圾。
首先,你不能指望通过参加一个5天结业拿文凭的课程就从诗人变成数据科学家。指望线上的远程课程就更不靠谱了。
第二点,我认为人们需要对他们完成自己的职业目标要付出的努力抱有正确的期望。这些技能之所以被如此热切的需要并能给你带来高薪是因为它们很难——你最最起码也得主动学习和精进。
第三点,我认为人们需要清楚他们目前的技能有哪些,他们的目标是什么。这个问题的答案将决定你如何实现目标。那些受到了简单的在线证书课程诱惑并深陷其中的人应该想想爱丽丝梦游仙境里的那只Cheshire猫 - “如果你不知道要去哪里,走哪条路都没用”。
我对向询问这一领域相关问题的人给出以下建议:
如果你是个想转行做数据科学的诗人——我是说正儿八经地的投入它并以一种深刻而有意义的方法将它作为你的事业——你需要放下你的羽毛笔,拿出你的牛仔裤和背包,上全日制的学校课程。大多数数据科学研究生课程时间不超过两年,其中多数会提供各种形式的研究生助学金。你应该争取参与包括编程,统计,建模的项目。而且还有充足的机会与当地公司,非营利组织,地方政府等等一起进行真正接地气的项目。
我觉得怎么强调实际操作、自己动手,实际经验对一切数据科学项目的重要性都不为过。这就是为什么在线/短期证书课程对于想在这一领域从头开始的人来说不起作用。直接上手做项目会帮助你们了解数据科学的更多潜在方面 - 如讲故事的作用,创造力(很遗憾地被忽视了)和项目管理。
如果你是个计算机科学家/程序员,就去找找带有分析课程或者经常使用统计学的商学院课程。你的编程和数学技能多半是他们需要的——你则可能需要上些统计/建模/分析的课程——以及(又一次被)培训如何讲述故事,并学习如何在和你有不同想法的人组成的团队中工作。
我会鼓励所有人去学习Tableau之类的基本的数据可视化工具。我同时鼓励所有人定期参加线上/异步编程课程。这些课程都很便宜(有的还不要钱)并能让你保持犀利的技术。
我的观点是,并不是每个人都想成为一名计算机程序员——我就不是特别喜欢编程。我是为了获得我的研究问题的答案而不得不去学编程。如果我能用我信赖的HP-12C计算器和自动铅笔就找到答案的话那我早那么做了。在21世纪里,你必须对基础数学有所了解,你必须能够阅读、写作并胜任基本编程的工作。
Q:数据科学家常谈到在许多组织里,管理层并不真正知道如何将分析手段运用于决策制定。决策制定仍然多数取决于直觉并且很大程度上受到公司政治的影响。您是否有相同经历?
A:我经常对公司事务发表评论,只要问题发生,不管它多不引人注意我都会发表意见。我划分了谈话框架——组织可以大致分为原生数据组织和非原生数据组织两类。
“原生数据公司”是那些现在占据头条以及股票市场的公司,如亚马逊、谷歌、脸书。这些公司在30年前不可能存在。不仅仅因为作为他们存在和运营模式基础的数据在当时并不存在,还因为即使他们做了,当时也不能获取足够的计算能力或执行与人工智能、机器学习、深度学习等方式相关的深度分析方法让这些公司从事他们现在正在做的业务。
然而,这些公司的另一个维度往往被忽视:由于它们是原生于数据本身,也因此在企业文化上受到了巨大的影响。它们是从组织图的顶部到底部都由数据驱动的公司。数据贯穿于他们整个公司的DNA。大多数进入这些公司的人都有以数据为中心的方向——并且可能会研究一个计算学科——越来越侧重于数据科学。脸书、谷歌的员工年龄中位数是29岁,亚马逊则为30岁(不包括仓库员工)。
“非原生数据公司”是在我们听到诸如“数据科学”和“大数据”这样的术语很久以前就取得成功的公司。例子包括沃尔玛和Arby’s。它们都是非常成功的公司,成立之初并没有数据贯穿于其DNA。
虽然这些公司现在已经大力侧重将数据用于公司决策及提供产品和服务,但与建立在计算文化上的组织架构有巨大的不同。这些公司的管理层非常有前瞻性,他们把自己的公司转变为以事实为基础、用数据做驱动的组织,从而在市场上获得了领先者地位。他们各自市场上的对手们(希尔斯百货,梅西百货 ... 麦当劳,温蒂快餐)则没有。
Q:最后一个问题,您认为人工智能和自动化在未来10-15年里对数据科学造成怎样的影响?
A:我并非这一领域的专家,但我认为做出任何预测统计学、计算机科学或数据科学会因自动化而消亡的预言都为时过早。计算器只是让数学计算“自动化”……但是如今的数学比以前的计算要更广阔也更复杂。我期待在数据科学的领域中也是一样。