扣丁学堂大数据培训简述数据挖掘中需要注意哪些错误

本篇文章小编给喜欢大数据技术或者是想要参考大数据培训的小伙伴们分享一下数据挖掘中需要注意的错误,想要加入到大数据开发领域就一定要注意数据挖掘中的错误,下面小编和大家分享一下数据挖掘中需要注意的错误都有哪些,感兴趣的小伙伴就随小编一起来了解一下吧。

扣丁学堂大数据培训简述数据挖掘中需要注意哪些错误

大数据培训

1、抛弃了不该忽略的案例(Discount Pesky Cases)

IDMer:到底是“宁为鸡头,不为凤尾”,还是“大隐隐于市,小隐隐于野”?不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。

异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。

研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了……”

数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。

例如:

在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。

解决方法:

可视化可以帮助你分析大量的假设是否成立。

2、轻信预测(Extrapolate)

IDMer:依然是辩证法中的观点,事物都是不断发展变化的。

人们常常在经验不多的时候轻易得出一些结论。

即便发现了一些反例,人们也不太愿意放弃原先的想法。

维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。

解决方法:

进化论。没有正确的结论,只有越来越准确的结论。

3、试图回答所有问题(Answer Every Inquiry)

IDMer:有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰,但我知道爬一步就离终点近一步。”

“不知道”是一种有意义的模型结果。

模型也许无法100%准确回答问题,但至少可以帮我们估计出现某种结果的可能性。

4、随便地进行抽样(Sample Casually)

(1)降低抽样水平。例如,MD直邮公司进行响应预测分析,但发现数据集中的不响应客户占比太高(总共一百万直邮客户,其中超过99%的人未对营销做出响应)。于是建模人员做了如下抽样:把所有响应者放入样本集,然后在所有不响应者中进行系统抽样,即每隔10人抽一个放入样本集,直到样本集达到10万人。但模型居然得出如下规则:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都会响应营销。这显然是有问题的结论。

解决方法:“喝前摇一摇”先打乱原始数据集中的顺序,从而保证抽样的随机性。

(2)提高抽样水平。例如,在信用评分中,因为违约客户的占比一般都非常低,所以在建模时常常会人为调高违约客户的占比(比如把这些违约客户的权重提高5倍)。建模中发现,随着模型越来越复杂,判别违约客户的准确率也越来越高,但对正常客户的误判率也随之升高。(问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)

解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

5、太相信最佳模型(Believe the Best Model)

IDMer:还是那句老话-“没有最好,只有更好!”

可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型,有时也会有用。

“最佳”模型中使用的一些变量,会分散人们太多的注意力。

一般来说,很多变量看起来彼此都很相似,而最佳模型的结构看上去也千差万别,无迹可循。但需注意的是,结构上相似并不意味着功能上也相似。

解决方法:把多个模型集装起来可能会带来更好更稳定的结果。

想要了解更多关于大数据开发方面内容的小伙伴,请关注扣丁学堂大数据培训官网、微信等平台,扣丁学堂IT职业在线学习教育有专业的大数据讲师为您指导,此外扣丁学堂老师精心推出的大数据视频教程定能让你快速掌握大数据从入门到精通开发实战技能。

HTML5前端开发VIP免费公开课直播间:https://ke.qq.com/course/320523?flowToken=1008606

相关推荐