关于学习数据科学的三大误区,你有遇到过吗?
点击上方关注,All in AI中国
你好! 又是我。今天,想为数据科学的内容以及如何不学习它提供一些指导。
让我们从最基础的开始。
什么是数据科学?
数据科学不仅要懂一些编程语言、数学、统计,还需要拥有"领域知识"。
首先,我们创建了一个新的领域,或者类似的东西。在这个领域有很多事情要说和研究。名称并不重要,也许数据科学只是一个更大领域的临时名称,但对数据的科学研究,从中获得知识,然后能够预测一些事情,就是世界的现在和未来。
我将重点讨论与业务相关的数据科学定义和建议,也许这些定义和建议可以应用于整个领域,但本文的思想是关于商业数据科学的。
我要提出三件事:
1. 数据科学是一门科学
2. 有关学习数据科学的那些糟糕的方法
3. 创建良好的备忘单可以帮助您以系统的方式进行数据科学学习
数据科学是一门科学
memes_and_science
我知道这可能会引起一些人的争议,但请坚信我的观点。我在这里想说的是,数据科学当然与商业有关,但它最终还是一门科学,或者说正在成为一门科学。
我之前将数据科学定义为:
通过数学、编程和科学方法解决业务/组织问题,包括通过分析数据和生成预测模型来创建假设、实验和测试。它负责将这些疑问转化为恰当的问题,这些问题也可以以创造性的方式对最初的假设作出反应。它还必须包括所获得结果的有效沟通,以及解决方案如何为业务/组织增加价值。
我将在这里讲述数据科学作为一门科学的描述和定义。我认为将数据科学描述为一门科学是非常有用的,因为如果是这样的话,这个领域的每个项目至少应该是:
- 可复制:便于测试他人的工作和分析。
- 易错:数据科学和科学并不是在寻找真理,而是在寻找知识,所以未来的每一个项目都可以被替代或改进,没有解决方案才是最终的解决方案。
- 协作:数据科学家不是单独存在的,他们需要一个团队,这个团队将使开发智能解决方案成为可能。它是科学的重要组成部分,数据科学也不应例外。
- 创意性:大多数数据科学家所做的都是新的研究、新的方法或采用不同的解决方案,因此他们的环境应该非常有创造性并且易于工作。富有创造力在科学行业中是至关重要的,是我们找到解决困难和复杂问题的唯一途径。
- 符合规例:现在科学上有很多规定,在数据科学中没有那么多,但是将来会有更多的规定。重要的是,我们正在建设的项目意识到这些不同类型的法规,因此我们可以为问题创建一个干净的、可接受的解决方案。
如果我们不遵循这些基本原则,那么进行适当的数据科学实践将非常困难。数据科学的实施方式应使决策能够遵循系统化的过程。
学习数据科学的三大错误方法
如果你在这个领域,你很可能正在学习数据科学,或者你参加了一些MOOC课程,甚至是实地课程。我不想在这里说平台或课程不好,我认为即使在最差的课程中我们也能学到一些东西。
1. 只听理论课程,而没有实践
如果你正在上一门与数据科学相关的课程,比如数学、统计学、编程或类似的东西,而你只是在那里听课,那你是在浪费时间。数据科学需要实践。你学到的每件事,即使教授没有告诉你,也要练习并尝试。这是真正理解事物的基础,当你在这个领域工作时,你会做很多不同的实际工作。
只具备良好的统计、数学和python知识,才不会让你成为一个成功的数据科学家。你应该还具备更多手艺。能够使用这些工具解决业务方面的问题。所以,如果你正在学习一些新东西,并且你想真正理解它,找一个你可以应用它,或者说玩它的场景去实践吧。
2. 以疯狂的方式创建模型
我们从"外部世界"获得数据,我们的身体和大脑分析我们得到的原始数据,然后我们"阐述"事物。
我们会从所获得的信息中学会如何反应、思考、感受和理解。当我们理解时,我们就是在解码组成这个复杂事物的部分,并将我们一开始得到的原始数据转换成有用且简单的东西。
我们通过建模来做到这一点。这是理解"现实"的过程,创造一个更高层次的原型,将描述我们看到的、听到的和感觉到的东西,但它是一个代表性的东西,而不是"实际"或"真实"的东西。
所以在你这么做之前,先想想:
model_i_created_i_5_seconds.fit (X, y)
建模在机器学习和数据科学领域是非常重要的,它们必须有一个目的。在使用它们之前,你必须先了解它们。现在,他们在训练之前从数据中假设,了解他们用来学习的不同指标,如何评估它们等等。
因此,我可以告诉你,阅读像Scikit-Learn这样的库的文献没有害处:
下面是关于科学数据处理统计学习的教程,机器学习是一项越来越重要的技术。
Apache Spark:
MLlib:主要指南-Spark2.4.1文档
由于运行时专有二进制文件的许可问题,默认情况下我们不包括netlib-java的本地代理…
MLlib: Main Guide - Spark 2.4.3 Documentation
TensorFlow指南| TensorFlow核心|TensorFlow
这是TensorFlow在一个或多个本地或远程设备上运行数据流图的机制。
3. "是的,我是一只孤独的狼。我可以自己学习,自己做任何事情。"
请记住,我之前提出的一个特征是数据科学是一个协作领域。 那就好好研究它吧!
我不是在这里说你需要开始使用你的BFF课程,而是利用今天在线平台给我们的东西。 我们有论坛、聊天、讨论板等,你可以在这里遇到人们学习你现在正在学习的相同内容。与更多人一起学习会更容易,并且不要害怕提问。
要想弄明白一件事,你能问多少问题就问多少问题,而且在你弄明白之前不要休息。这并不代表要骚扰别人,但如果你礼貌地问,大多数人会非常乐意帮助你。
这里有一些很棒的资源(除了MOOC和课程内部的资源),可以找到和你学得一样的人:
Stack Overflow - 开发人员学习,分享和建立职业的地方
Stack Overflow是最大、最值得信赖的在线社区,供开发人员学习,分享他们的编程……
Quora
Quora是一个获取和分享知识的地方。这是一个可以问问题的平台……
Deep Cognition Community
一个积极的社区,共同推动增长和创新……
r / datascience
一个供数据科学从业者和专业人士讨论和辩论数据科学职业的地方……
系统数据科学
Cheatsheets通过提供有关语言、概念或库的不同部分的一些知识来节省你的时间。 一些备忘单还包含指向R、Python、Scala等最重要包的文档和包级备忘单的超链接。
在去年年底,我发现了一个存储库,它广泛传播了所有可以用来进行数据科学的不同的样式表。
FavioVazquez/DS-便条数据科学手册列表
「链接」GitHub - FavioVazquez/ds-cheatsheets: List of Data Science Cheatsheets to rule the world
你会发现有以下几个方面的问题:
- 商业科学
- Python
- R
- 数学与微积分
- 大数据
- 机器学习
- 深度学习
- SQL
- 数据可视化
- 一般数据科学和其他
编译出品