《python数据分析与挖掘实战》之挖掘建模
经过数据探索与数据预处理,我们得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型。
挖掘建模
分类和预测是预测问题的两种类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。
回归分析:
回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。
回归分析
1.线性回归:对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数。
2.非线性回归:对一个或多个自变量和因变量之间的线性关系进行建模。如果非线性关系可以通过简单的函数变换转化成线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘法求解。
3.Logistic回归:是广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率。
4.岭回归:是一种改进最小二乘法估计的方法。
5.主成分回归:主成分回归是根据主成分分析的思想提出来的,是对最小二乘法估计的一种改进,它是参数估计的一种偏估计。可以消除自变量之间的多重共线性。
决策树:
决策树采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。
1.ID3算法:其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。
2.C4.5算法:C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足:ID3算法只适用于离散的描述属性,而C4.5算法既能够处理离散的描述属性,也可以处理连续的描述属性。
3.CART算法:CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量时,该树为分类树;
人工神经网络:
人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。
1.BP神经网络:是一种按误差逆传播算法训练的多层前馈网络,学习算法是误差校正学习算法,是目前应用最广泛的神经网络模型之一。
2.LM神经网络:是基于梯度下降法和牛顿法结合的多层前馈网络,特点:迭代次数少,收敛速度快,精确度高。
3.RBF径向基神经网络:RBF网络能够以任意精度逼近任意连续函数,从输入层到隐含层的变换是非线性的,而从隐含层到输出层的变换是线性的,特别适合于解决分类问题。
4.FNN模糊神经网络:FNN模糊神经网络是具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点,集联想、识别、自适应及模糊信息于一体
5.GMDH神经网络:GMDH网络也称为多项式网络,它是前馈神经网络中常用的一种用于预测的神经网络。它的特点是网路结构不固定,而且在训练过程中不断改变。
6.ANFIS自适应神经网络:神经网络镶嵌在一个全部模糊的结构之中,在不知不觉中向训练数据学习,自动产生、修正并高度概括出最佳的输入与输出变量的隶属函数及模糊规则;另外,神经网络的各层结构与参数也都具有了明确的、易于理解的物理意义。
聚类分析
贝叶斯网络:
贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。
支持向量机:
支持向量机是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。