1) 使用控制变量确保数据真实反映业务。2)样本中缺失值的分布(频率)要与数据全集中缺失值分布保持一致。3)针对稀有事件抽样,样本中事件与非事件的比例被人为放大了,此时要使用加权的方法恢复新样本对全体数据集的代表性。训练集的样本规模一般在自变量数量的10倍
1) 有没有更加明显且直观的规则、指标可以代替复杂的建模?2) 有没有一些明显的业务逻辑在前期的建模阶段被疏忽了呢?4) 目标变量的定义是否稳定?ROC曲线是一种有效比较两个二元分类模型的可视工具,它显示了给定模型的灵敏性真正率和假正率之间的比较评定。捕获
安科网(Ancii),中国第一极客网
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号