R学习笔记系列—统计学基础知识之数据类别

第一章 统计数据

统计学是关于数据资料的收集、整理、汇总、描述、分析,并在此基础上进行推断和决策的科学,因此可以说,统计学研究的对象就是各种各样的数据。

1.1 数据类别

数据由测量而产生,按照其测量尺度的不同,可以分为四种,即定类数据、定序数据、定距数据和定比数据。

定类数据:精度最低的数据,它将数据划分为不区分顺序的类别,这些类别必须是互斥且完备的,以保证被测量的每个事物都划分到唯一一个类别中。定类尺度不区分数据,无法比较大小,在数学中只能用 = 或 ≠ 来运算。比如性别、班级、产品种类等等。

定序数据:定序数据在定类数据的基础上,增加了顺序的概念,可以被排序,每一类都可以与别的类来比较,来区分好与坏,大与小等。在数学中,定序数据不仅可以用 = 、≠来区分,还可以用 >、<来比较,但由于其测量尺度上的区间是主观确定的,缺乏统一的标准,因此只能给出事物的相对大小,并不能确切给出差别的准确度量。比如产品被分为一等品、二等品、三等品;把物体的大小分为大、中、小;把考核结果分为优秀、良好、合格、不合格等等。

定距数据:定距数据不仅具备定类数据和定距数据的基本特征(可以用 = 、≠、>、<运算),而且还具备统一的、标准的测量单位,因而能够使用加法和减法计算彼此之间的确切差别,但定距数据缺乏绝对的零点,因此无法用乘法和除法来表达数据间的倍数关系。比如公元纪年法就是定距数据,我们可以说2017年比2010年多7年,但并不能说2017年是2010年的多少倍。之所以不能表达倍数和比率关系,是因为公元元年是根据基督文化定义的起始点,并不是物理或数学意义上无法出现或者无法测量的绝对零点。

定比数据:定比数据是精度最高的数据,可以使用等于、不等于、大于、小于、加、减、乘、除各类运算。定比数据之所以能够表达倍数或者比率关系,在于其包含了绝对零值得定义。比如温度,用摄氏温度表示,因其0℃被定义为水的结冰点,并不是绝对零点,因此只能说30℃比10℃高20℃,但不能说30℃是10℃的三倍。但若用K氏温度,因其零度被定义为气体分子平均动能为零的绝对零度(-273.15℃),因此是定比数据,因此可以说300K比100K高200K,也可以说300K是100K的3倍。

四类数据的主要特点可以总结为下表。

数据类型可用的数学运算
定类数据=、!=
定序数据=、!=、>、<
定距数据=、!=、>、<、+、-
定比数据=、!=、>、<、+、-、×、÷

这里很多读者可能会有一点小困惑,那么现在流行的文本挖掘、视觉计算等涉及到文本、图片、语音、视频等数据,怎么归类到这四种里面呢。其实这些数据是复合数据,想分析利用这些数据,需要进一步提取这些数据的特征数据,比如对文本进行分词,分词后每单个词语就相当于一个定类数据,每个词出现的频率就是定比数据。因此,这四种数据涵盖了所有的数据类型,并无遗漏。

根据测量有无间隔,可以得到离散型数据和连续型数据。若测量是有间隔的,比如通过计数的方式,则得到离散型数据。比如一个团队的人数,只能是5、8、12、15这样的整数,而不能是5.1、8.2这样的值。若测量对象固定下来,那么离散型变量只能是固定集合中的某一个值,而不能是某两个值之间的中间值。

若测量时没有间隔的,就会得到不间断的连续型数据。比如测量人的身高,理论上可以是任意精度,比如172cm、172.5cm、172.543cm等等。当然,实际的精度取决于测量任务的精度要求和测量工具的物理精度,正因为如此,连续型数据都只是真实测量值的一个近似,其最后一位数字受测量工具精度的限制。比如精度1mm的卷尺,测量身高,则只能准确测量到172.5cm,若为172.54cm,则最后以为,即0.04cm为估计值。

相关推荐