《谁说菜鸟不会数据分析》 学习笔记二 缺失数据处理
可接受的情况是缺失值在10%以下 |
缺失值是指数据集中某个或某些属性的值是不完全的。 |
缺失值产生的原因多种多样,主要分成机械原因和人为原因。 |
机械原因是由于数据收集或保存失败造成的数据缺失。比如数据存储的失败、存储器损坏、机械故障导致 某段时间数据未能收集等。 |
人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露 相关问题的答案,或对问题的回答是无效的,抑或数据录入人员失误漏录了数据。 |
在数据表中,缺失值最常见的表现形式就是空值或者错误标示符。 |
如何快速找到所有的缺失值: |
1:定位输入:开始--编辑--定位条件或者直接用快捷键Ctrl+G,弹出“定位”对话框,定位条件--空值--确定 |
处理缺失值的四种方法: |
方法一:用一个样本统计量的值代替缺失值,最典型的做法就是使用该变量的样本平均值代替缺失值, 这种方法是在实际操作中比较常见的实用方法。 |
方法二:用一个统计模型计算出来的值去代替缺失值。常使用的模型有回归模型、判别模型等, 不过这得用专业的数据分析软件才行 |
方法三:将有缺失值的记录删除,不过可能会造成样本量的减少 |
方法四:将有缺失值的记录保留,仅在相应的分析中做必要的排除。当调查的样本量比较大, 缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理缺失值 比较可行。 |
2:Ctrl+Enter |
Ctrl+Enter,在不连续的区域中同时输入同一个数据或公式时很好用 |
eg: |
Ctrl+Enter,刚选中的多个不连续的单元格都变成相同的内容“小白”。 |
Ctrl+Enter和定位查找搭配使用,当用F5或Ctrl+G定位方式定位到空白单元格之后,可以输入你想要输入的数据,再按下Ctrl+Enter,所有的空白单元格都会变成你要的样子。 |
3:查找替换 |
当缺失值是以错误标示符形式出现的时候,可以采用第二种方法--替换查找。 |
Ctrl+F 查找 Ctrl+H 替换 Ctrl+G 快速定位 |