要成为「最性感」的数据科学家,需要这三方面的能力

在外界看来,「大数据」和「数据科学」这样的词看起来复杂又神秘。现在,许多人已经开始理解大数据分析所涉及的基本概念——收集我们所产生的、不断增长的数据,并用其来获取有意义的洞察。但是,对那些每天都在从事数据工作的人来说,这意味着什么呢?

数据科学家被称为「21世纪最性感的工作」。为了了解他们究竟在做哪些性感的工作,我与顶尖数据科学家Steve Hanks博士聊了聊,请他为我勾勒了数据科学家工作的大致轮廓,以及什么样的人能在这个领域取得成功。

Hanks博士拥有耶鲁大学计算机科学的博士学位,已有15年计算机科学教授的经验,曾在亚马逊、雅虎、微软等公司工作。现在,他是Whitepages.com的首席数据科学家,负责联系图(Contact Graph)的工作——这是一个包含了2亿人联系方式的数据库。每个月,这个数据库都会在20亿人中进行一次搜索,是这家公司最大的商业资产。

这个数据库发布于1997年,驱动着Whitepage公司的生意。最近,它开始走多样化的路线,开始开发app。例如 Caller ID是一个替代性的手机用户界面,可以在Whitepages的数据库中搜索来电人的详细信息,并帮助掐断骚扰电话。它还向其他公司提供用于预防诈骗的数据,也带来了一些收益。

数据科学家的主要能力

「数据科学家」这个词覆盖的角色很广,涵盖了学术、金融和政府等多种产业和组织。Hanks带领的团队包含12到15个人,负责Whitepages所有的分析工作,他们的技能和职责各自不同。然而,他告诉我,有三个重要的能力是每位数据科学家都必须理解的:

1,必须理解数据是有意义的

Hanks强调说,我们经常忽视一个事实,那就是数据是有含义的,并且理解其中的意义非常重要。如果我们想要在数字中获得有用的洞察,就必须超越数字,理解它们暗藏的内涵。Hanks指出「这一点与算法和工程等没有关系。理解数据是一门艺术,真的非常重要。」

2,必须理解你需要解决的问题,以及数据与之的联系。

此时,你可以打开你的工具箱,找到正确的分析方法和算法来分析数据。Hanks提到了机器学习——这是目前十分流行的领域。但他强调说,除了机器学习之外,还有几百种技术可以用数据来解决问题,例如运筹学、决策论、博弈论、控制论等,这些理论都有很长的历史。Hanks说:「一旦你理解了数据和你试图解决的问题,下一步就应该选择匹配的算法,来获得有意义的解。」

3,必须理解工程问题

第三个能力是理解和运用执行分析任务的设备。用Hanks的话说,就是「如果你在正确的时间和地点没有基础设备来高效精确地运行分析任务,那一切都是白搭。」

要成为「最性感」的数据科学家,需要这三方面的能力

要成为一名优秀的数据科学家,就必须对上面这三个能力多加注意。你需要注意数据及其含义、理解要解决的问题并知道匹配的算法,还必须理解用来计算解的工程问题。

这并不是说专业化没有意义。Hanks强调说,要在这三个领域都成为专家,几乎是不可能的任务,更不用说这三个领域的许多子领域了。只要你对这三个领域都保持足够的尊重,那么只成为其中一个的专家,也是没有问题的。Hanks说:「即使你只精通算法或工程,也没有关系。但是如果你不理解你要解决的问题,以及你究竟拥有什么数据,那你就会做出错误的决策。」

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。

相关推荐