关于学习数据科学的三大误区,你有遇到过吗?

点击上方关注,All in AI中国

关于学习数据科学的三大误区,你有遇到过吗?

你好! 又是我。今天,想为数据科学的内容以及如何不学习它提供一些指导。

让我们从最基础的开始。

什么是数据科学?

关于学习数据科学的三大误区,你有遇到过吗?

关于学习数据科学的三大误区,你有遇到过吗?

数据科学不仅要懂一些编程语言、数学、统计,还需要拥有"领域知识"。

首先,我们创建了一个新的领域,或者类似的东西。在这个领域有很多事情要说和研究。名称并不重要,也许数据科学只是一个更大领域的临时名称,但对数据的科学研究,从中获得知识,然后能够预测一些事情,就是世界的现在和未来。

我将重点讨论与业务相关的数据科学定义和建议,也许这些定义和建议可以应用于整个领域,但本文的思想是关于商业数据科学的。

我要提出三件事:

1. 数据科学是一门科学

2. 有关学习数据科学的那些糟糕的方法

3. 创建良好的备忘单可以帮助您以系统的方式进行数据科学学习

数据科学是一门科学

关于学习数据科学的三大误区,你有遇到过吗?

memes_and_science

我知道这可能会引起一些人的争议,但请坚信我的观点。我在这里想说的是,数据科学当然与商业有关,但它最终还是一门科学,或者说正在成为一门科学。

我之前将数据科学定义为:

通过数学、编程和科学方法解决业务/组织问题,包括通过分析数据和生成预测模型来创建假设、实验和测试。它负责将这些疑问转化为恰当的问题,这些问题也可以以创造性的方式对最初的假设作出反应。它还必须包括所获得结果的有效沟通,以及解决方案如何为业务/组织增加价值。

我将在这里讲述数据科学作为一门科学的描述和定义。我认为将数据科学描述为一门科学是非常有用的,因为如果是这样的话,这个领域的每个项目至少应该是:

  • 可复制:便于测试他人的工作和分析。
  • 易错:数据科学和科学并不是在寻找真理,而是在寻找知识,所以未来的每一个项目都可以被替代或改进,没有解决方案才是最终的解决方案。
  • 协作:数据科学家不是单独存在的,他们需要一个团队,这个团队将使开发智能解决方案成为可能。它是科学的重要组成部分,数据科学也不应例外。
  • 创意性:大多数数据科学家所做的都是新的研究、新的方法或采用不同的解决方案,因此他们的环境应该非常有创造性并且易于工作。富有创造力在科学行业中是至关重要的,是我们找到解决困难和复杂问题的唯一途径。
  • 符合规例:现在科学上有很多规定,在数据科学中没有那么多,但是将来会有更多的规定。重要的是,我们正在建设的项目意识到这些不同类型的法规,因此我们可以为问题创建一个干净的、可接受的解决方案。

如果我们不遵循这些基本原则,那么进行适当的数据科学实践将非常困难。数据科学的实施方式应使决策能够遵循系统化的过程。

学习数据科学的三大错误方法

关于学习数据科学的三大误区,你有遇到过吗?

如果你在这个领域,你很可能正在学习数据科学,或者你参加了一些MOOC课程,甚至是实地课程。我不想在这里说平台或课程不好,我认为即使在最差的课程中我们也能学到一些东西。

1. 只听理论课程,而没有实践

关于学习数据科学的三大误区,你有遇到过吗?

如果你正在上一门与数据科学相关的课程,比如数学、统计学、编程或类似的东西,而你只是在那里听课,那你是在浪费时间。数据科学需要实践。你学到的每件事,即使教授没有告诉你,也要练习并尝试。这是真正理解事物的基础,当你在这个领域工作时,你会做很多不同的实际工作。

只具备良好的统计、数学和python知识,才不会让你成为一个成功的数据科学家。你应该还具备更多手艺。能够使用这些工具解决业务方面的问题。所以,如果你正在学习一些新东西,并且你想真正理解它,找一个你可以应用它,或者说玩它的场景去实践吧。

2. 以疯狂的方式创建模型

关于学习数据科学的三大误区,你有遇到过吗?

我们从"外部世界"获得数据,我们的身体和大脑分析我们得到的原始数据,然后我们"阐述"事物。

关于学习数据科学的三大误区,你有遇到过吗?

我们会从所获得的信息中学会如何反应、思考、感受和理解。当我们理解时,我们就是在解码组成这个复杂事物的部分,并将我们一开始得到的原始数据转换成有用且简单的东西。

我们通过建模来做到这一点。这是理解"现实"的过程,创造一个更高层次的原型,将描述我们看到的、听到的和感觉到的东西,但它是一个代表性的东西,而不是"实际"或"真实"的东西。

所以在你这么做之前,先想想:

model_i_created_i_5_seconds.fit (X, y)

建模在机器学习和数据科学领域是非常重要的,它们必须有一个目的。在使用它们之前,你必须先了解它们。现在,他们在训练之前从数据中假设,了解他们用来学习的不同指标,如何评估它们等等。

因此,我可以告诉你,阅读像Scikit-Learn这样的库的文献没有害处:

下面是关于科学数据处理统计学习的教程,机器学习是一项越来越重要的技术。

「链接」

Apache Spark:

MLlib:主要指南-Spark2.4.1文档

由于运行时专有二进制文件的许可问题,默认情况下我们不包括netlib-java的本地代理…

MLlib: Main Guide - Spark 2.4.3 Documentation

TensorFlow指南| TensorFlow核心|TensorFlow

这是TensorFlow在一个或多个本地或远程设备上运行数据流图的机制。

「链接」

3. "是的,我是一只孤独的狼。我可以自己学习,自己做任何事情。"

关于学习数据科学的三大误区,你有遇到过吗?

请记住,我之前提出的一个特征是数据科学是一个协作领域。 那就好好研究它吧!

我不是在这里说你需要开始使用你的BFF课程,而是利用今天在线平台给我们的东西。 我们有论坛、聊天、讨论板等,你可以在这里遇到人们学习你现在正在学习的相同内容。与更多人一起学习会更容易,并且不要害怕提问。

要想弄明白一件事,你能问多少问题就问多少问题,而且在你弄明白之前不要休息。这并不代表要骚扰别人,但如果你礼貌地问,大多数人会非常乐意帮助你。

这里有一些很棒的资源(除了MOOC和课程内部的资源),可以找到和你学得一样的人:

Stack Overflow - 开发人员学习,分享和建立职业的地方

Stack Overflow是最大、最值得信赖的在线社区,供开发人员学习,分享他们的编程……

「链接」

Quora

Quora是一个获取和分享知识的地方。这是一个可以问问题的平台……

「链接」

Deep Cognition Community

一个积极的社区,共同推动增长和创新……

「链接」

r / datascience

一个供数据科学从业者和专业人士讨论和辩论数据科学职业的地方……

「链接」

系统数据科学

关于学习数据科学的三大误区,你有遇到过吗?

「链接」

Cheatsheets通过提供有关语言、概念或库的不同部分的一些知识来节省你的时间。 一些备忘单还包含指向R、Python、Scala等最重要包的文档和包级备忘单的超链接。

在去年年底,我发现了一个存储库,它广泛传播了所有可以用来进行数据科学的不同的样式表。

FavioVazquez/DS-便条数据科学手册列表

「链接」GitHub - FavioVazquez/ds-cheatsheets: List of Data Science Cheatsheets to rule the world

你会发现有以下几个方面的问题:

  • 商业科学
  • Python
  • R
  • 数学与微积分
  • 大数据
  • 机器学习
  • 深度学习
  • SQL
  • 数据可视化
  • 一般数据科学和其他

关于学习数据科学的三大误区,你有遇到过吗?

编译出品

相关推荐