数据科学家成长指南：从入门到被逼疯（共12题）

kkbb

2019-03-03

关注关注

来源：新智元

本文约2000字，建议阅读5分钟。

本文介绍了想要成为一名数据科学家需要的技能。

数据科学家成长指南：从入门到被逼疯（共12题）

[ 导读 ]人工智能的火爆带动了对数据科学家的大量需求。看到急缺的岗位和高薪，谁能不动心呢？可是你确定想好要成为一名数据科学家了吗？你知道成为一名DS，需要具备什么技能吗？那就请准备好，下面我们要开车了！

你可能已经从媒体铺天盖地的报道中，了解到数据科学家这个抬头非常火。

根据UiPath数据显示，2018年12113个岗位争夺AI人才，数据科学家需求量排名第二。

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652033026&idx=3&sn=65a5905519df0c5a24996debcdaf006b&chksm=f121a4f3c6562de5a30e02bc8fd864bab6a7605d84261d09e6c9f1759dbcb954280aa9c8e5d0&scene=21#wechat_redirect

数据科学家成长指南：从入门到被逼疯（共12题）

于是很多人萌生了入行、或者转行做数据科学家的念头。那么接着就带来一个问题：如何成为一名数据科学家呢？

接下来，由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二书的作者、美国西南航空的企业顾问Thomas Nield，献上这份《2019年数据科学家成长指南》。

废话不多说，马上进入战斗。

Round 1：不考证完全没问题。当然考了也可以

不要把工作后宝贵的时间，浪费在考证上。数据科学不过是商业分析的一个分支，而且通常学校的知识总是和当前的科技前沿脱节。如果真的想学建议去Coursera或者可汗学院自学。

当然，证书多了终归是好事嘛。如果你非要去学校考证，建议考物理或者运筹学的研究生。我了解到很多一流的数据科学家，基本都是这俩专业毕业的。

花个几年时间研究生毕业后，明天就会更好？反正有个数据科学初创公司的创始人说：

博士学历不重要；硕士学历无可无不可；学士毕业必须有，因为用人单位最低要求就是大学毕业。

https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253

Round 2：成为一个数据科学家真的需要了解这么多领域吗？

数据科学家成长指南：从入门到被逼疯（共12题）

这是一张6年前的图，里面甚至连TensorFlow都没有。

而且我觉得，数据科学发展到现在，已经非常碎片化和细分化了。根本没必要搞的这么复杂。

Round 3：我应该学哪门语言呢？需要从Linux入手吗？

数据科学家是一个跨平台物种，操作系统不重要。

语言的话，Scala早就过气了，R解决数学问题非常爽，Python才是万能的。一条Python在手，数据科学跟我走。

不过需要了解一些库，类似Pandas用来处理数据帧，matplotlib用来创建图表。

Round 4：学会Python很关键！学不会也没关系

Python学起来超简单。不过，你可能也不用非得学会Python。

作为人类，要善用工具。数据科学不止眼前的脚本和机器学习，还有远方的数据可视化。这个时候显然Tableau更好用，也更美观。

数据科学家成长指南：从入门到被逼疯（共12题）

Tableau

不过涉及到数据清洗、管理、转换、加载等，就需要用到Alteryx了，鼠标拖拽就能搞定。

小编点评：所以买个Tableau就可以称为数据科学家了？

从淘宝买个激活码岂不是要变成二手科学家？

Round 5：明明靠Excel和PPT就能搞定，为什么非要学Python呢？

首先，能为你的简历增加光环。

其次，之前也说过，Python简直万能。通过Jupyter notebook逐步完成每个数据分析阶段，让每一步都可视化，就像你正在创建一个可以与他人分享的故事。

划重点：毕竟，沟通和讲故事才是数据科学的重要组成部分。

数据科学和软件工程很大程度可以划等号。不同之处在于，数据科学必须有数据，软件工程就不一定了。

数据科学家成长指南：从入门到被逼疯（共12题）

Wiki网页是一个非常好的数据来源，抓取网页并使用Beautiful Soup解析他们，就得到了大量非结构化文本数据。

6：懂NoSQL行，不懂也没事

非机构化数据才能激发我们的想象力，结构化数据只能固化我们的逻辑能力。

如今像谷歌Facebook这样的大厂，拥有大量的非机构化数据，他们就像裁判一样，数据科学的定义权掌握在他们手里。剩下我们这些运动员，只好用无聊的SQL咯。

利用非结构化数据，大厂可以通过挖掘用户内容、邮件、故事，用于广告或者其他途径。

而我们也可以利用非结构化数据，对社交媒体上的帖子进行，做一些NLP应用比如聊天机器人。

NoSQL更擅长存储这类数据。但是对于数据科学家来说，NoSQL也不是必须要掌握的，除非做数据工程师。而且现在Apache Kafka比NoSQL更火，所以你也知道该学什么了。

有的人可能不知道，数据科学家分为两种角色。数据工程师使用生产系统并帮助使数据和模型可用；而数据科学家则负责机器学习以及数学建模。

这个时候，利用朴素贝叶斯算法，就可以去预测文本的分类。我打算建议从具有均值和标准差的正态分布开始。也许用z分数和线性回归计算一些概率或两个。

Round 7：学会线性代数很重要。不会的话……也行吧

传统智慧认为线性代数是许多数据科学的基石，因此掌握线性代数很重要。将矩阵相乘和相加（称为点积），将一直伴随着你。

数据科学家成长指南：从入门到被逼疯（共12题）

听起来很无聊对吧，但这就是机器学习在做的事情。当你进行线性回归或构建自己的神经网络时，你将使用随机权重值进行大量矩阵乘法和缩放。

不过实际上，你可能也不需要学习线性代数，因为有像TensorFlow和 scikit-learn这样的框架和库，帮你解决掉最枯燥乏味的线代部分。

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652037501&idx=5&sn=bf72bffd392dc23498d0c5305ae385b8&chksm=f121958cc6561c9ac4c7af09aafe8204f6629811b6fdc832992132daaa718c918106554ffa13&scene=21#wechat_redirect

呃，实际上，也别用TensorFlow，用Keras。

Round 8：棒。总之都能用Excel实现，所以会用Excel就可以被称为数据科学家了？

机器学习通常在做两个任务：回归，或者分类。但技术上来说，分类就是回归。

决策树、神经网络、支持向量机、逻辑回归、线性回归都执行某种形式的曲线拟合。

所以，我们也可以不负责任的说：机器学习只是回归。神经网络实际上只是具有一些非线性函数的多层回归。图像识别也是回归。

Round 9：为什么大家现在不怎么谈论算法了？

因为这些优化问题已经在很长一段时间内得到了令人满意的解决，而且这些方法在很早以前也没太多人讨论。

运筹学已经提供了许多机器学习使用的优化算法。同时也为常见“AI”问题提供了许多解决方案。

AI炒作重新点燃了机器学习及其解决的问题类型：图像识别，自然语言处理，图像生成等。

机器学习，深度学习…今天被炒作的任何东西，通常都不能解决离散优化问题，人们尝试过，但效果非常不理想。

所以有人说深度学习是否已经达到了极限，AI寒冬又双来了。

Round 10：AI玩游戏已经超神，接下来会取代人类工作吗？

首先我们要明确一点。人们已经找到了一些巧妙的回归应用，例如计算围棋和象棋最优移动（离散优化也可以做），或自动驾驶的汽车计算转向的方向。

但是，回归只能将这么多的应用组合起来，完成单一任务。

现在我们好好思考一下，你会担心职业星际争霸选手威胁到你的工作吗？你觉得打星际，和你打Excel之间，有多少重叠的交集呢？

数据科学家成长指南：从入门到被逼疯（共12题）

如果你连人类星际选手都不怕，你为什么还怕一个回归呢？AI玩星际再强，它也只会玩星际。

Round 11：一句话解释什么是数据科学家，让你爷爷也能听懂

数据科学的界限正在模糊。它可以是任何东西，也可以什么都不是。成为数据科学家你需要掌握很多东西，但就算没掌握也不会致命。

天哪！

不过幸好，这个世界上还是有人能说明白到底什么是数据科学和数据科学家的。一句话解释数据科学家：

数据科学家是比软件工程师更懂统计、比统计学家更懂软件工程的一个人。

数据科学家成长指南：从入门到被逼疯（共12题）

Round 12：已疯

所以，2019年，你还想做数据科学家吗？

编辑：王菁

校对：林亦霖

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

数据科学家诺贝尔奖科普数据分析

安科网

数据科学家成长指南：从入门到被逼疯（共12题）

kkbb

kkbb

相关推荐

为什么所有的机器学习模型有90％从没有投入生产

为了下个项目的质量！每个数据科学家都应该学会这两种工具

会机器学习就够了？下一代数据科学家群体走向“全栈”！

低代码为AI降低准入门槛

机器学习工程师与数据科学家的大斗法

现代化机器学习工具，助数据科学家开展更多工程或业务功能

数据科学的现在与未来

数据科学家应了解Java的六大原因

数据科学家小贴士：10个优秀的可视化工具

简单生活第一步：数据科学家该了解的4个Python自动库

这5个Python库太难搞！每位数据科学家都应该了解

DevOps二三事：用持续集成构建自动模型训练系统的理论和实践指南

数据科学家的工具列表：提高生产效率的工具包

数据科学家必须知道的前十大Python库

如何自学成为数据科学家或AI工程师？你需要攻克这九点

数据科学家、开发者的新神器 Amazon SageMaker正式上线中国区

七大人工智能科技趋势

数据科学家和软件工程师都在用的Pandas函数有哪些?

AI+咨询：数据科学家会成为顾问吗？

AutoML 2.0：数据科学家过时了吗？

kkbb