数据科学的描述性统计和概率介绍
介绍:
在描述性统计中,你描述、展示、总结和整理你的数据,无论是通过数值计算还是图表或表格。描述性统计中的一些常见度量是集中趋势,而另一些是数据集的可变性。
描述性统计分析有助于我们理解我们的数据,是机器学习中非常重要的一部分。对数据集进行描述性统计分析是绝对重要的。很多人跳过了这一部分,因此丢失了很多关于他们数据的有价值的见解,这常常导致错误的结论。
集中趋势度量:
它描述了一组具有代表其分布中心的单个值的数据。集中趋势的主要衡量标准有三种:
- 均值:观测值的总和除以样本容量。它不是一个健壮的统计数据,因为它受到极值的影响。因此,非常大或非常低的值(例如。离群值)可以扭曲答案。
- 中位数:数据的中间值。它将数据一分为二,也称为第50百分位数。与平均值相比,离群值和偏差数据的影响要小得多。数据集中的元素是奇数,最中间的元素是中位数。数据集中元素的是偶数,中位数是两个中心元素的平均值。
- 众数(mode):在数据集中,它比频繁发生的值更重要。因此,如果没有类别相同且数据集可能具有多个mode,则数据集不具有mode。它是唯一可以用于分类变量的集中趋势的度量。
可变性度量
可变性度量也称为数据的扩展,描述了观察集的相似性或可变性。最流行的可变性指标是范围,四分位距(IQR),方差和标准差。
- 范围:范围描述数据中最大点和最小点之间的差异。范围越大,数据扩散越多。
- IQR:四分位距(IQR)是上四分位数与下四分位数之差的度量。您可以通过以下示例来理解这一点。
四分位数范围是衡量大多数值所在的地方。
- 方差:它是平均值的平均偏差。通过找出每个数据点和均值之间的差异,对它们求平方,对它们求和,然后取这些数的平均值来计算方差。
方差的问题在于,由于平方,它与原始数据的测量单位不同。
- 标准偏差:标准偏差更常用,因为它在原始单位中。它只是方差的平方根,因此,它返回到原始测量单位。
如果标准偏差较小,则数据点往往接近平均值。高标准偏差意味着您的数据点分布在很宽的范围内。
当数据是单峰时,最好使用标准偏差。在正态分布中,大约34%的数据点位于平均值之上或之下的平均值和一个标准偏差之间。由于正态分布是对称的,因此68%的数据点落在高于平均值的一个标准偏差和低于平均值的一个标准偏差之间。大约95%落在低于平均值的两个标准偏差和高于平均值的两个标准偏差之间。并且大约99.7%落在高于平均值的三个标准偏差和三个标准偏差之间。
下面的图片说明了这一点。
概率
我将简要介绍一下概率。在进入概率的实际定义之前,让我们看一些术语。
- 实验:一个实验可能是这样的 - 无论是否每天都在德里降雨。
- 结果:结果是单次试验的结果。如果今天下雨,今天的审判结果是“下雨了”。
- 事件:事件是实验的一个或多个结果。对于每天是否在德里降雨的实验,该事件可能是“下雨”或者没有下雨。
- 概率:这只是一个事件的可能性。因此今天下雨的可能性为60%,下雨的概率为0.6
伯努利试验
一个有两个结果的实验叫做伯努利试验。
n个伯努利试验中成功次数的概率分布称为二项式分布。
二项分布的公式如下
具有不同成功概率和100个随机变量的二项分布的概率质量函数
连续随机变量(可以假设两点之间的任何可能值的变量)的概率分布 称为概率密度函数。
概率密度函数下的面积给出随机变量在该范围内的概率。
如果我有一个种群数据,我从数据中取出相同大小的随机样本,那么样本均大致正态分布。
正态分布
它基本上描述了绘制数据时的大样本。它有时被称为“钟形曲线”或“高斯曲线”。
推理统计和概率计算要求给出正态分布。这基本上意味着,如果您的数据不是正态分布的,您需要非常小心地使用什么统计测试,因为它们可能导致错误的结论。
在完美的正态分布中,每一面都是另一面的精确镜像。它看起来应该如下图所示:
在正态分布中,均值,众数和中位数都相等并且落在相同的中线点。
平均值为0且标准偏差为1的正态分布称为标准正态分布。标准正态分布曲线下面积为1。
中心极限定理
- 如果我们从一个分布中取随机样本的均值我们画出均值,当我们取足够多的样本时,图趋于正态分布。
- 定理还说均值将近似等于样本均值的均值,即总体均值。
较高标准偏差的正态分布更平坦,即与较低标准偏差的分布相比更加分散。
Z scores
标准偏差数的距离,观测值离均值的距离,为标准分数或Z分数。
正Z分数表示观测值为高于均值的Z个标准差。Z分数为负表示该值在均值以下。
观察值=μ+zσ[μ是平均值,σ是标准偏差]
从上面的图形区域围绕平均值约2个标准差是0.95,这意味着在该范围内的数据概率为0.95。
对于特定的z得分,我们可以查看Z表以找出值小于该特定z值的概率。