独家|Quora顶尖数据科学作者与他们的最佳建议
作者:Matthew Mayo
翻译:王瑞玺
本文长度为3200字,建议阅读7分钟
Matthew Mayo是一名数据科学家,同时也是Kdnuggets的编辑,在本文中,他整理了2017年6月份Quora平台上数据科学分类中答案被浏览最多的10位作者,以及他们的最佳回答。读者可以从中获取一些有关数据科学的小贴士和建议。
这篇文章基于数据科学中受关注度最高的十位作者(https://www.quora.com/topic/Data-Science/writers)。根据2017年6月29日的检索结果,在过去的30天内,他们的答案的浏览量是最高的。
请注意,为了避免误会,这篇文章的“作者”是我,但内容里的信息——从问题到答案——与我并无任何关联。我只负责将这些回复信息统一编辑在一起。
Quora上的数据科学话题页
1. HåkonHapnes Strand(https://www.quora.com/profile/H%C3%A5kon-Hapnes-Strand),数据科学家 – 255,104次点击,173次回复(https://www.quora.com/profile/H%C3%A5kon-Hapnes-Strand/answers/Data-Science)
摘自:什么是“全栈”数据科学家 (FSDS: Full Stacked Data Scientist)?
(https://www.quora.com/What-is-a-full-stack-data-scientist)
我并没有听说这个定义被实际使用,所以以下是我本人对此的见解:
数据科学家们的核心工作是构建预测模型。此外,他们必须拥有以下行业的基础知识:
数据工程
软件工程
商业分析
一个全栈数据科学家(FSDS)需要能够无缝地发挥一个数据工程师,一个软件工程师,一个业务分析师以及一个数据科学家的作用。如果您需要开发一个APP,FSDS可以胜任。如果您需要建立数据库,或者分析商业上的战略以及管理流程,FSDS同样可以做到。
2. Mike West(https://www.quora.com/profile/Mike-West-99),SQL Server和机器学习爱好者 – 127,776次点击,45次回复
摘自:在Scala(+ Spark)的兴起后,Python还和数据科学有所关联么?
(https://www.quora.com/Is-Python-still-relevant-in-data-science-given-the-rise-of-Scala-+Spark)
Scala和Spark不是Python的竞争对手,而是朋友。
我强调这个很长时间了。 Python现在和未来十年都是机器学习的黄金标准。
Python的唯一竞争对手是R。
译者注:软体式编程语言,主要用于统计(https://zh.wikipedia.org/wiki/%E7%BB%9F%E8%AE%A1)分析、绘图、数据挖掘(https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98)。平心而论,目前每个人都在使用Python。很多人的R语言的水平都只限于应付大学考试,但却无法实际应用。
Python领先太多了。
大数据将任何数据(基本上都是非结构化数据)转换为可以建模的格式。 Scala和Spark只是工具,运用于极大的数据集。
而TensorFlow(译者注:机器智能开源软件库) 并不是用Scala写成的。
请不要被限制在一两篇文献中,即使它们是由Andrew Ng发表的。你必须拥有自己的研究见解。
3. Corrin Lakeland(https://www.quora.com/profile/Corrin-Lakeland-1) – 117,841次点击,87次回复(https://www.quora.com/profile/Corrin-Lakeland-1/answers/Data-Science)
摘自:数据科学家将在五至十年内从事什么样的工作?
(https://www.quora.com/What-will-data-scientists-be-working-on-in-5-to-10-years-from-now)
这让我想到未来。在接下来的五年中,预期看到许多目前声称自己参与其中的公司尝试将它应用到严肃到的项目中。这些项目中大部分可能会一波三折。这样整个工业界才会普遍成熟起来,并对可行或不可行有更深刻的认知。
看看目前有多少支持机器学习的GUI工具。比如Excel自动集群数据的插件。给它五年时间,我期待大多数人在构思数据科学时只会考虑它们。
未来十年内,潮流将会真正地进步。数据科学将成为其他学科和行业的必备技能。数据科学专家本身将会变成一个奇妙的存在。还将会有一种现象就是,系统提取的数据将会变得对数据科学十分友好,而不是像现在这样大部分的数据都仍需要经过处理。
4. William Chen(https://www.quora.com/profile/William-Chen-6),Quora的数据科学家 – 117,834次点击,195次回复(https://www.quora.com/profile/William-Chen-6/answers/Data-Science)
摘自:为什么选择从事数据科学而不是量化金融方面的工作?
(https://www.quora.com/Why-did-you-choose-to-work-in-data-science-over-quantitative-finance)
总而言之,我选择了数据科学是因为我更加热衷于此。我对数据科学的热情取决于以下五个因素:
对创新并处于发展中职业道路的期待 – (做出)这个决定是在2013和2014年的某个时候,当时数据科学比如今更加新鲜且不稳定。当时我突发奇想,想进入到一个新兴的发展中行业工作,而我这个想法持续至今。我的决定不取决于炒作,所以我更注重于这个行业的发展前景,而不是它如何热门。
对数据科学的熟悉 – 这可以说是列表中占据地位最少的一个原因。当我不得不选择我的事业的时候,我已经做过两个跟数据科学相关的实习:分别在Etsy和Quora公司。我在这两个实习中积累了丰富的经验。所以选择全职致力与数据科学,对于我而言是一份令我兴奋并且非常熟悉的工作。
对消费者互联网产品的兴趣 – 我长期以来迷恋于消费者互联网产品,并很高兴看到它从出生到现在一直在稳定的成长。从事数据科学方面的工作是我唯一的机会,成为我迷恋的消费者互联网世界中的一员。
对新兴的产品的攻略 – 我一直对消费者互联网产品很感兴趣,因为它拥有无限的可能性,最终会变成一个庞然大物(也可能只是失败)。致力于一个有前景的产品是非常诱人的。
对知识共享的热爱– 我一直努力分享自己的知识和想法,无论是作为哈佛统计课110项目的科教人员,或者是在Quora论坛尽可能地进行编写。科技的分享渠道有很多,比如有聚会,博客文章,Quora回复,讨论小组以及演讲。神秘的量化金融世界却并非如此。
5. Clayton Bingham(https://www.quora.com/profile/Clayton-Bingham),南加州大学神经工程中心研究员 - 108,512次点击,8次回复(https://www.quora.com/profile/Clayton-Bingham/answers/Data-Science)
摘自:在Python中,如何使用BeautifulSoup将数据从网站保存到CSV?
(https://www.quora.com/In-Python-how-can-I-save-data-from-a-website-to-CSV-using-BeautifulSoup)
比如说懒人的方式:
一旦生成数据框,就可以做各种解析或格式化。你只需要使用这些数据一次的话,你可以使用像Excel这样的工具。
我希望这有帮助!
6. Lili Jiang(https://www.quora.com/profile/Lili-Jiang),Quora数据科学经理 - 88,461次点击,8次回复(https://www.quora.com/profile/Lili-Jiang/answers/Data-Science)
摘自:作为数据科学家,您会给过去的自己什么样的建议?
(https://www.quora.com/As-a-data-scientist-what-tips-would-you-have-for-a-younger-version-of-yourself)
首先最重要的,什么是数据科学?
我遇到的十位有抱负的数据科学家中的九位都会认为机器学习等同于数据科学。“数据科学”是一个非常高端的总称,而机器学习只是其中的一部分。好比对于许多知名的科技公司来说,产品分析也是一个数据科学团队的重要组成部分。产品分析是一个隐藏的宝藏。它非常有意思,但几乎没有被我们讨论过。这其中包括:
A / B测试设计
设计指标:让我们以视频平台为例,什么指标可以最佳衡量用户的满意度?是观看过的视频数量?还是观看视频的时长?或者是在一周内回来观看另一部影片的用户百分比?
研究指标的变化:为什么一个用户群的活跃度会突然高涨?
了解产品的机制: X按钮和Y功能会对产品产生怎样的改进?应该将页面A重新定向到B再到C,还是从A直接转到C?
确定趋势并提供战略建议:用数据分析显示,一个公司应当在______项目投资,以便保持在该领域的竞争力。
7. Zeeshan Zia(https://www.quora.com/profile/Zeeshan-Zia-1),计算机视觉与机器学习博士 - 70,564次点击,24次回复(https://www.quora.com/profile/Zeeshan-Zia-1/answers/Data-Science)
摘自:AI(人工智能)在2017年是否过度热门?
(https://www.quora.com/Is-AI-over-hyped-in-2017)
是和否,取决于你所在的群体。
比如在学术研究性质的群体, AI并没有被看作是炒作。过去几年来,AI有重大突破,因此适当的庆祝是应当的。
好比我自己的物体识别研究领域,在短短的三至四年内,精度(Pascal VOC的平均精度)从35%上升到了65%以上。以前,我们每年的进步只有1%到2%,尽管物体识别是计算机视觉中最热门的领域,并且每年都在顶级峰会上发表的论文中占有最大的一部分。深度学习包括在强化学习中取得的重大突破,是在雅达利游戏中取得成功的关键,也使得打败世界级围棋大师的目标比预期提早了数十年完成了。它也终于让语音识别的准确度达到了可以投入使用的程度。
8. Jason T Widjaja(https://www.quora.com/profile/Jason-T-Widjaja),商业分析专家。喜欢他的兄弟。 - 60,837次点击,167次回复(https://www.quora.com/profile/Jason-T-Widjaja/answers/Data-Science)
摘自:有消息称,分析/数据科学会迅速凋零,多数分析师会失业,这风险到底有多大?
(https://www.quora.com/What-is-the-risk-of-the-hype-around-analytics-data-science-dying-off-leaving-lots-of-unemployed-analysts)
从根本上说,数据科学不可能会在短时间内凋零。只要:
人们希望做出更好的决定(总是)
人们关心未来的发展(永远),
个人与公司用其受益(总是)
可获取的数据点持续增加(永远),
我们持续改进工具和技术(你得想办法)...
分析和数据科学是无处不在的。
免责声明:极度偏见都大同小异。
9. Roman Trusov(https://www.quora.com/profile/Roman-Trusov),信息技术与数据科学硕士生,Skolkovo科学技术研究所(2018)- 57,815次点击,139次回复(https://www.quora.com/profile/Roman-Trusov/answers/Data-Science)
摘自:数据科学家应当如何处理版本控制,无论是管道代码还是模型?
(https://www.quora.com/profile/Roman-Trusov)
想获得最完美的版本控制系统 (VCS: Version Control System) 的话,最好是将它们分散。
将代码完全保持在版本控制系统中,是唯一合乎逻辑的方式。因为你如果作为DS(Data Scientist),执行一些重要的ETL(译者注:Extract-Transform-Load的缩写,指数据经过抽取、转换、加载至目的端的过程),或你的代码关系到收获或花费大量资金的重要决策,那么代码审查是不可避免的。没门儿!
虽然对于数据科学家来说这很常见,但是我不认为将Jupyter notebooks存储在VCS中是一个很好的做法。你看不到它们之间的差异,因为它们不是“生产代码”。一般来说,当你完成某件事情时,你至少要推出一个“镜像”的Python脚本。Jupyter notebooks的确非常适用于实验和演示,但除此之外,在其他方面总是会有更好的选择。
10. Shweta Doshi(https://www.quora.com/profile/Shweta-Doshi-12),GreyAtom联合创始人,数据科学沉浸式学习学校 - 50,866次点击,123次回复(https://www.quora.com/profile/Shweta-Doshi-12/answers/Data-Science)
摘自:数据科学家开始工作时所需的基本知识和技能是什么?
(https://www.quora.com/What-is-the-essential-knowledge-and-skills-are-required-to-start-working-as-data-scientist)
你必须熟悉的知识分为三类:编程、数学和科学。
作为数据科学家,你需要将遇到的商业问题转化为数据问题,并建立预测模型作为答案以及分析结果的阐述。
统计学家和管理学家同属于数据学家的范围。前一个专注于实施数据统计,后一个则专门负责数据学家团队的运转。
数据科学家是数据科学的编程与实施之间的桥梁,并致力于数据科学的理论只是以及数据的商业影响力。
更多精彩内容请关注清华-青岛数据科学研究院官方公众平台“THU数据派”