数据科学的描述性统计和概率介绍

xusong

2018-08-05

关注关注

介绍:

在描述性统计中，你描述、展示、总结和整理你的数据，无论是通过数值计算还是图表或表格。描述性统计中的一些常见度量是集中趋势，而另一些是数据集的可变性。

描述性统计分析有助于我们理解我们的数据，是机器学习中非常重要的一部分。对数据集进行描述性统计分析是绝对重要的。很多人跳过了这一部分，因此丢失了很多关于他们数据的有价值的见解，这常常导致错误的结论。

集中趋势度量:

它描述了一组具有代表其分布中心的单个值的数据。集中趋势的主要衡量标准有三种:

均值:观测值的总和除以样本容量。它不是一个健壮的统计数据，因为它受到极值的影响。因此，非常大或非常低的值(例如。离群值)可以扭曲答案。
中位数:数据的中间值。它将数据一分为二，也称为第50百分位数。与平均值相比，离群值和偏差数据的影响要小得多。数据集中的元素是奇数，最中间的元素是中位数。数据集中元素的是偶数，中位数是两个中心元素的平均值。
众数（mode）:在数据集中，它比频繁发生的值更重要。因此，如果没有类别相同且数据集可能具有多个mode，则数据集不具有mode。它是唯一可以用于分类变量的集中趋势的度量。

可变性度量

可变性度量也称为数据的扩展，描述了观察集的相似性或可变性。最流行的可变性指标是范围，四分位距（IQR），方差和标准差。

范围：范围描述数据中最大点和最小点之间的差异。范围越大，数据扩散越多。
IQR：四分位距（IQR）是上四分位数与下四分位数之差的度量。您可以通过以下示例来理解这一点。

数据科学的描述性统计和概率介绍

四分位数范围是衡量大多数值所在的地方。

方差：它是平均值的平均偏差。通过找出每个数据点和均值之间的差异，对它们求平方，对它们求和，然后取这些数的平均值来计算方差。

方差的问题在于，由于平方，它与原始数据的测量单位不同。

数据科学的描述性统计和概率介绍

标准偏差：标准偏差更常用，因为它在原始单位中。它只是方差的平方根，因此，它返回到原始测量单位。

如果标准偏差较小，则数据点往往接近平均值。高标准偏差意味着您的数据点分布在很宽的范围内。

当数据是单峰时，最好使用标准偏差。在正态分布中，大约34％的数据点位于平均值之上或之下的平均值和一个标准偏差之间。由于正态分布是对称的，因此68％的数据点落在高于平均值的一个标准偏差和低于平均值的一个标准偏差之间。大约95％落在低于平均值的两个标准偏差和高于平均值的两个标准偏差之间。并且大约99.7％落在高于平均值的三个标准偏差和三个标准偏差之间。

下面的图片说明了这一点。

数据科学的描述性统计和概率介绍