数据科学统计基础

xiekch

2018-06-19

数据科学统计基础

数据科学是帮助业务更有效并为业务服务以降低成本和增加收入的实用工具之一。我们多次遇到数据的频率分布（平滑曲线就像定义数据的结构一样）。了解分配的基本概念非常重要，它为分析和推断统计提供了基础。概率概念给出了数学计算，而分布有助于我们实际可视化下面发生的事情。

数据科学是关于使用数据来制定推动行动的决策。数据科学的首要目标是使用数据分析思维来：

1用数据驱动的分析决策取代直觉
2将原始数据转换为有价值的资产
3提高行动速度

数据科学包括：

1-查找数据
2-获取数据
3-清理和转换数据
4-理解数据中的关系
5-从数据中提供值

数据科学领域的统计学是一个多元化的领域，有许多分类算法，聚类算法，神经网络算法，决策树等，这些都有助于理解这些概念。

数据科学领域中使用的一些统计基本原理是：

贝叶斯定理：贝叶斯定理极大地简化了复杂的概念，通过这一点，我们可以很容易地使用数据点来预测任何假设的概率。例如，通过使用这个定理，我们可以通过了解他们的年龄来预测患癌症的人的概率。它也让我们知道电子邮件是否是基于单词数量的垃圾邮件。这个定理是用来消除不确定性的本质。
K-最近邻算法：在理解和实现方面，它被认为是最简单的算法之一。该算法用于查找彼此最接近的组。它在特定数量的联络点中搜索本地组。这个概念基本上用于特征聚类，基本的市场分割以及从一组数据条目中寻找异常值。
Bagging（Bootstrap聚合）：它被认为是创建像决策树这样的单个算法的多个模型的最有用的技术之一。每个构建的模型都根据不同的样本数据进行训练，每个决策树都使用不同的样本数据集来解决过度拟合问题。在其他语言中，它也可以定义为一种基本上旨在提高统计分类和回归中使用的机器学习算法的稳定性和准确性的工具。
交叉验证：这是一种用于验证模型性能的技术，它是通过分割训练数据完成的。
分类技术：这是一种数据挖掘技术，它将类别分配到数据集合中，以帮助进行更准确的预测和分析。它也被称为决策树，基本上用于对非常大的数据集进行分析。有两种用于分析目的的主要分类技术：

逻辑回归：它也被称为预测分析，主要用于描述数据以及一个相关二元变量与一个或多个名义，序数，区间或比率级独立变量之间的关系。它主要用于评估身体摄入量，脂肪摄入量，卡路里摄入量和参与者年龄是否对心脏病发作有影响等问题。
判别分析：在判别分析中，根据测量的特征将两个或两个以上的组或群集分为已知群体中的一个。它模拟预测变量的分布，然后使用贝叶斯定理评估选择响应类别概率的估计值。

基本的统计概念和概率分布有很多应用和广泛的用途。一些数据科学专家通过python和R库运行算法，以便理解统计分析的基础知识，以便于操作和抽象。因此，学习这些数据科学统计的基本概念非常重要。

科学大数据决策树算法