数据分析拿不出手?快看看是不是你的描述性统计出了问题
点击上方关注,All in AI中国
作者:Abhishek Kumar
目录
- 导言
- 集中趋势的度量(平均值、中位数、众数)
- 度量差异量数(范围、IQR、方差、标准差)
- 概率(伯努利试验、正态分布)
- 中心极限定理
- Z分数
导言:
描述性统计,是指运用制表和分类、图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的集中趋势分析/度量、离散程度分析/度量。
描述性统计分析有助于我们理解我们的数据,是机器学习中非常重要的一部分。对数据集进行描述性统计分析是绝对重要的。然而很多人跳过了这一部分,也因此对他们的数据做出了错误的解读,进而全盘皆输。
集中趋势的度量
集中趋势的度量,指在一组数据集中表示其分布中心的单个值数据。集中趋势的主要衡量标准有三种:
平均值:观测值除以样本容量的总和。它不是一个可靠的统计数据,因为它容易受到极值的影响。换句话说,非常大或非常低的值(例如,异常值)会对答案产生不可估量的影响。
中位数:它是数据的中间值。它将数据分成两半,也称为第50百分位数。它受异常值和数据偏斜的影响要比平均值小得多。如果数据集中元素的数字是奇数,则最中间的元素是中位数。如果数据集中元素的编号为偶数,则中位数为两个中心元素的平均值。
众数:在数据集中,它更加常见。但是,如果一个数据集没有相同类型的数据,或者一个数据集有众多相同类型的数据,则该数据集没有众数。众数是唯一可以用于衡量集中趋势的度量。
度量差异量数
差异量数的度量,它描述了观测的数据集是否相似,有没有新的变化。差异量数的衡量标准主要有四种:范围、IQR、方差和标准差。
范围:指数据中最大点和最小点之间的差异。范围越大,数据越分散。
IQR:IQR是对最高不超过75%(例如Q3)四分位数和最低不超过25%的四分位数(例如,Q2)的离散程度的测量。你可以通过下面的示例理解这一点。
范围测量的是数据的开始和结束位置,而四分位数(IQR)则是测量多数值所在的范围。
方差:它是与平均值的平均平方偏差。方差的计算方法是找出每个数据点与平均值之间的差异,对它们进行平方,将它们相加,然后取这些数字的平均值。
方差的问题在于,由于平方,它与原始数据的度量单位不同。
标准差:标准差的使用相对较多,因为它没有改变度量单位。它作为方差的平方根,它的度量单位与原始的度量单位相同。当你有一个较低的标准差时,你的数据点往往接近平均值。标准差较大意味着你的数据点分布太散。
当数据是单峰时,最好使用标准差。在正态分布中,大约34%的数据点位于平均值或高于/低于平均值的一个标准差之间。由于正态分布是对称的,所以你也可以理解为,68%的数据点落在高于/低于平均值一个标准差的范围内。另外,大约95%在低于平均值的两个标准差和高于平均值的两个标准差之间。约99.7%在高于三个标准差以上和三个标准差低于平均值之间。
下面的图片完美地说明了这一点。
使用所谓的"Z分数",你可以检查一个特定数据点在均值以下(或以上)的标准差。
概率
我只简单介绍一下概率。在讨论概率的定义之前,我们先来看看一些术语。
- 实验:一项实验可能是这样的——新德里是否每天都下雨。
- 结果:结果是单次试验的结果。如果今天下雨,今天的结果就是"下雨了"。
- 事件:事件是实验的一个或多个结果。对于每天在德里下雨的实验,这个事件可能是"下雨了",也有可能是"没有下雨"。
- 概率:这仅仅是事件发生的可能性。所以今天下雨的概率是60%,也是0.6。
伯努利试验
像抛硬币这种有两种结果的实验叫做伯努利实验。
在N个伯努利试验中,成功次数的概率分布称为二项分布。
二项分布的公式如下。
具有不同成功概率和100个随机变量的二项分布的概率质量函数。
连续随机变量(可假定两点间任意值的变量)的概率分布称为概率密度函数。在连续随机变量的情况下,它的试验次数将接近无限。
上图中的阴影部分是概率密度函数给出的随机变量在此范围内的概率。
如果我有一个总体数据,并从数据中随机抽取大小相等的样本,则样本均值近似于正态分布。
正态分布
它基本上描述了绘制数据时的大样本。它有时被称为"钟形曲线"或"高斯曲线"。
推理统计和概率计算都要求给出一个正态分布。这基本上意味着,如果你的数据不是正态分布的,在统计测试中你需要非常小心地使用它们。因为它们可能导致错误的结论。
在一个完美的正态分布中,每一方都是另一方的精确镜像。它应该类似于下面图片上的分布:
在正态分布中,平均值、众数和中位数都是相等的,并且落在同一中线点。
均值为0,标准差为1的正态分布称为标准正态分布。标准正态分布曲线下面积为1。
中心极限定理
如果我们从一个分布中获取随机样本的平均值并绘制平均值。那么当我们获得足够多的随机样本时,图像就接近正态分布。
该定理还指出,均值的平均值将近似等于样本均值的平均值,即总体均值。
较高标准差的正态分布比较低标准差的正态分布更"平坦,即更"宽"。
Z分数
Z分数是以标准差单位来表现的一组观察值。它是将观察值减去该组观察值的平均值,再除以标准差得到的。
Z分数为正表示观察值高于平均值。Z分数为负表示观察值低于平均值。
观察值=µ+zσ [µ为均值,σ为标准差]
从上面的图可以看出,–2到2之间的标准差平均值是0.95,这就意味着数据在该范围内的概率是95%。
对于一个特定的Z分数Z分数,我们可以查看Z表格来找出小于这个特定z值的概率。