扣丁学堂大数据培训简述数据挖掘中最易栽的坑

yousanfen

2019-03-20

关注关注

如今学习大数据开发技术的人在不断的增加，不论是参加大数据培训还是自学大数据开发技术都需要很用心，因为数据挖掘并不是一件简单的事情，本篇文章扣丁学堂大数据培训小编给读者们分享一下数据挖掘中最易栽的坑，希望对小伙伴有所帮助。

扣丁学堂大数据培训简述数据挖掘中最易栽的坑

大数据培训

1、缺乏数据(Lack Data)

对于分类问题或预估问题来说，常常缺乏准确标注的案例。

例如：

欺诈侦测(Fraud Detection)：在上百万的交易中，可能只有屈指可数的欺诈交易，还有很多的欺诈交易没有被正确标注出来，这就需要在建模前花费大量人力来修正。

信用评分(Credit Scoring)：需要对潜在的高风险客户进行长期跟踪(比如两年)，从而积累足够的评分样本。

2、太关注训练(Focus on Training)

IDMer：就象体育训练中越来越注重实战训练，因为单纯的封闭式训练常常会训练时状态神勇，比赛时一塌糊涂。

实际上，只有样本外数据上的模型评分结果才真正有用。

例如：

癌症检测(Cancer detection)：MD Anderson的医生和研究人员(1993)使用神经网络来进行癌症检测，惊奇地发现，训练时间越长，对训练集的性能改善非常轻微，但在测试集上的性能却明显下降。

机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优，这样做的结果通常会导致过度拟合(overfit)。

解决方法：

解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括：bootstrap、cross-validation、jackknife、leave-one-out…等等。

3、只依赖一项技术(Rely on One Technique)

IDMer：这个错误和第10种错误有相通之处，请同时参照其解决方法。没有对比也就没有所谓的好坏，辩证法的思想在此体现无遗。

“当小孩子手拿一把锤子时，整个世界看起来就是一枚钉子。”要想让工作尽善尽美，就需要一套完整的工具箱。

不要简单地信赖你用单个方法分析的结果，至少要和传统方法(比如线性回归或线性判别分析)做个比较。

解决方法：

使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。

4、提错了问题(Ask the Wrong Question)

IDMer：一般在分类算法中都会给出分类精度作为衡量模型好坏的标准，但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。

(1)项目的目标：一定要锁定正确的目标

例如：

欺诈侦测(Shannon实验室在国际长途电话上的分析)：不要试图在一般的通话中把欺诈和非欺诈行为分类出来，重点应放在如何描述正常通话的特征，然后据此发现异常通话行为。

(2)模型的目标：让计算机去做你希望它做的事

大多数研究人员会沉迷于模型的收敛性来尽量降低误差，这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务，而不是仅仅侧重模型计算上的精度。

5、只靠数据来说话(Listen (only) to the Data)

IDMer：“让数据说话”没有错，关键是还要记得另一句话：兼听则明，偏听则暗!如果数据+工具就可以解决问题的话，还要人做什么呢?

(1)投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。

(2)经过设计的实验：某些实验设计中掺杂了人为的成分，这样的实验结果也常常不可信。

6、使用了未来的信息(Accept Leaks from the Future)

IDMer：看似不可能，却是实际中很容易犯的错误，特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。

预报(Forecast)示例：预报芝加哥银行在某天的利率，使用神经网络建模，模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。

金融业中的预报示例：使用3日的移动平均来预报，但却把移动平均的中点设在今天。

解决方法：

要仔细查看那些让结果表现得异常好的变量，这些变量有可能是不应该使用，或者不应该直接使用的。

给数据加上时间戳，避免被误用。

以上就是扣丁学堂大数据在线学习小编给大家分享的数据挖掘中最易栽的坑，希望对小伙伴们有所帮助，想要了解更多内容的小伙伴可以登录扣丁学堂官网咨询。想要学好大数据开发小编给大家推荐口碑良好的扣丁学堂，扣丁学堂有专业老师制定的大数据学习路线图辅助学员学习，此外还有与时俱进的大数据视频教程供大家学习，想要学好Python开发技术的小伙伴快快行动吧。

HTML5前端开发VIP免费公开课直播间:https://ke.qq.com/course/320523?flowToken=1008606

大数据数据挖掘数据挖掘算法

安科网

扣丁学堂大数据培训简述数据挖掘中最易栽的坑

yousanfen

yousanfen

相关推荐

5个开源数据挖掘工具，收下这波干货

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

yousanfen