数据科学家成长指南:从入门到被逼疯(共12题)
来源:新智元
本文约2000字,建议阅读5分钟。
本文介绍了想要成为一名数据科学家需要的技能。
[ 导读 ]人工智能的火爆带动了对数据科学家的大量需求。看到急缺的岗位和高薪,谁能不动心呢?可是你确定想好要成为一名数据科学家了吗?你知道成为一名DS,需要具备什么技能吗?那就请准备好,下面我们要开车了!
你可能已经从媒体铺天盖地的报道中,了解到数据科学家这个抬头非常火。
根据UiPath数据显示,2018年12113个岗位争夺AI人才,数据科学家需求量排名第二。
http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652033026&idx=3&sn=65a5905519df0c5a24996debcdaf006b&chksm=f121a4f3c6562de5a30e02bc8fd864bab6a7605d84261d09e6c9f1759dbcb954280aa9c8e5d0&scene=21#wechat_redirect于是很多人萌生了入行、或者转行做数据科学家的念头。那么接着就带来一个问题:如何成为一名数据科学家呢?
接下来,由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二书的作者、美国西南航空的企业顾问Thomas Nield,献上这份《2019年数据科学家成长指南》。
废话不多说,马上进入战斗。
Round 1:不考证完全没问题。当然考了也可以
不要把工作后宝贵的时间,浪费在考证上。数据科学不过是商业分析的一个分支,而且通常学校的知识总是和当前的科技前沿脱节。如果真的想学建议去Coursera或者可汗学院自学。
当然,证书多了终归是好事嘛。如果你非要去学校考证,建议考物理或者运筹学的研究生。我了解到很多一流的数据科学家,基本都是这俩专业毕业的。
花个几年时间研究生毕业后,明天就会更好?反正有个数据科学初创公司的创始人说:
博士学历不重要;硕士学历无可无不可;学士毕业必须有,因为用人单位最低要求就是大学毕业。
https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253Round 2:成为一个数据科学家真的需要了解这么多领域吗?
这是一张6年前的图,里面甚至连TensorFlow都没有。
而且我觉得,数据科学发展到现在,已经非常碎片化和细分化了。根本没必要搞的这么复杂。
Round 3:我应该学哪门语言呢?需要从Linux入手吗?
数据科学家是一个跨平台物种,操作系统不重要。
语言的话,Scala早就过气了,R解决数学问题非常爽,Python才是万能的。一条Python在手,数据科学跟我走。
不过需要了解一些库,类似Pandas用来处理数据帧,matplotlib用来创建图表。
Round 4:学会Python很关键!学不会也没关系
Python学起来超简单。不过,你可能也不用非得学会Python。
作为人类,要善用工具。数据科学不止眼前的脚本和机器学习,还有远方的数据可视化。这个时候显然Tableau更好用,也更美观。
Tableau
不过涉及到数据清洗、管理、转换、加载等,就需要用到Alteryx了,鼠标拖拽就能搞定。
小编点评:所以买个Tableau就可以称为数据科学家了?
从淘宝买个激活码岂不是要变成二手科学家?
Round 5:明明靠Excel和PPT就能搞定,为什么非要学Python呢?
首先,能为你的简历增加光环。
其次,之前也说过,Python简直万能。通过Jupyter notebook逐步完成每个数据分析阶段,让每一步都可视化,就像你正在创建一个可以与他人分享的故事。
划重点:毕竟,沟通和讲故事才是数据科学的重要组成部分。
数据科学和软件工程很大程度可以划等号。不同之处在于,数据科学必须有数据,软件工程就不一定了。
Wiki网页是一个非常好的数据来源,抓取网页并使用Beautiful Soup解析他们,就得到了大量非结构化文本数据。
6:懂NoSQL行,不懂也没事
非机构化数据才能激发我们的想象力,结构化数据只能固化我们的逻辑能力。
如今像谷歌Facebook这样的大厂,拥有大量的非机构化数据,他们就像裁判一样,数据科学的定义权掌握在他们手里。剩下我们这些运动员,只好用无聊的SQL咯。
利用非结构化数据,大厂可以通过挖掘用户内容、邮件、故事,用于广告或者其他途径。
而我们也可以利用非结构化数据,对社交媒体上的帖子进行,做一些NLP应用比如聊天机器人。
NoSQL更擅长存储这类数据。但是对于数据科学家来说,NoSQL也不是必须要掌握的,除非做数据工程师。而且现在Apache Kafka比NoSQL更火,所以你也知道该学什么了。
有的人可能不知道,数据科学家分为两种角色。数据工程师使用生产系统并帮助使数据和模型可用;而数据科学家则负责机器学习以及数学建模。
这个时候,利用朴素贝叶斯算法,就可以去预测文本的分类。我打算建议从具有均值和标准差的正态分布开始。也许用z分数和线性回归计算一些概率或两个。
Round 7:学会线性代数很重要。不会的话……也行吧
传统智慧认为线性代数是许多数据科学的基石,因此掌握线性代数很重要。将矩阵相乘和相加(称为点积),将一直伴随着你。
听起来很无聊对吧,但这就是机器学习在做的事情。当你进行线性回归或构建自己的神经网络时,你将使用随机权重值进行大量矩阵乘法和缩放。
不过实际上,你可能也不需要学习线性代数,因为有像TensorFlow和 scikit-learn这样的框架和库,帮你解决掉最枯燥乏味的线代部分。
http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652037501&idx=5&sn=bf72bffd392dc23498d0c5305ae385b8&chksm=f121958cc6561c9ac4c7af09aafe8204f6629811b6fdc832992132daaa718c918106554ffa13&scene=21#wechat_redirect呃,实际上,也别用TensorFlow,用Keras。
Round 8:棒。总之都能用Excel实现,所以会用Excel就可以被称为数据科学家了?
机器学习通常在做两个任务:回归,或者分类。但技术上来说,分类就是回归。
决策树、神经网络、支持向量机、逻辑回归、线性回归都执行某种形式的曲线拟合。
所以,我们也可以不负责任的说:机器学习只是回归。神经网络实际上只是具有一些非线性函数的多层回归。图像识别也是回归。
Round 9:为什么大家现在不怎么谈论算法了?
因为这些优化问题已经在很长一段时间内得到了令人满意的解决,而且这些方法在很早以前也没太多人讨论。
运筹学已经提供了许多机器学习使用的优化算法。同时也为常见“AI”问题提供了许多解决方案。
AI炒作重新点燃了机器学习及其解决的问题类型:图像识别,自然语言处理,图像生成等。
机器学习,深度学习…今天被炒作的任何东西,通常都不能解决离散优化问题,人们尝试过,但效果非常不理想。
所以有人说深度学习是否已经达到了极限,AI寒冬又双来了。
Round 10:AI玩游戏已经超神,接下来会取代人类工作吗?
首先我们要明确一点。人们已经找到了一些巧妙的回归应用,例如计算围棋和象棋最优移动(离散优化也可以做),或自动驾驶的汽车计算转向的方向。
但是,回归只能将这么多的应用组合起来,完成单一任务。
现在我们好好思考一下,你会担心职业星际争霸选手威胁到你的工作吗?你觉得打星际,和你打Excel之间,有多少重叠的交集呢?
如果你连人类星际选手都不怕,你为什么还怕一个回归呢?AI玩星际再强,它也只会玩星际。
Round 11:一句话解释什么是数据科学家,让你爷爷也能听懂
数据科学的界限正在模糊。它可以是任何东西,也可以什么都不是。成为数据科学家你需要掌握很多东西,但就算没掌握也不会致命。
天哪!
不过幸好,这个世界上还是有人能说明白到底什么是数据科学和数据科学家的。一句话解释数据科学家:
数据科学家是比软件工程师更懂统计、比统计学家更懂软件工程的一个人。
Round 12:已疯
所以,2019年,你还想做数据科学家吗?
编辑:王菁
校对:林亦霖
— 完 —
关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。