R学习笔记系列—学会使用R语言内置的数据集
1.4.2 使用内置数据集
学习数据分析最佳的途径就是使用实际的数据,坐在电脑旁边反复练习。在学习阶段,最好的数据源就是 R 内置的数据集,一是因为方便,不用到处去找数据,避免了学习难度;二是因为经典,R 内置的数据集,都不是凭空杜撰出来的,都是在一些实际案例中收集到的比较经典的数据案例,因此实用性很强。本书(系列教程)大量采用 R 内置的数据集作为教学数据。
通过 data() 函数列出可用的数据集。
一般来说,数据集在包加载后可以直接通过数据集的名称使用,但是有些第三方包可能需要用 data() 函数显式加载数据集。在实际使用中,在加载完包后,你可以直接用变量名引用相应的数据集,若提示对象不存在的错误,则表明数据集需要手动引入,用 data() 加载使用即可。
R 标准安装里自带的 datasets 包内置了100多个经典的数据集。因为 datasets 包在 R 启动后会自动加载,因此可以直接使用其包含的数据集,不用手动加载 datasets 包。下面简单介绍一下 trees 和 mtcars 这两个我们会经常用到的数据集。
trees 数据集为数据框,记录了31株黑樱桃树的直径(Girth,英寸)、高度(Height,英尺)、体积(Volume,立方英尺)。
mtcars 数据集为数据框,记录了32种不同品牌的轿车的的11个属性。主要是:
mpg: 数值型,车辆油耗,单位是每加仑英里数
cyl: 数值型,气缸数
disp: 数值型,发动机排量
hp: 数值型,马力数
drat: 数值型,后桥速比
wt: 数值型,车身重量,单位为千磅
qsec: 数值型,四分之一英里加速时间
vs: 数值型,V/S
am: 数值型,0=自动挡,1=手动挡
gear: 数值型,前进档位数
carb : 数值型,化油器数量
当我们遇到一个陌生数据集时,我们想要了解其基本信息,可以用以下一些函数。
喜欢闲适安静的生活,懂一点计算机编程,懂一点统计学和数据分析。(爱编程爱统计)