数据挖掘之分类和预测学习笔记
分类和预测
数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。然而,分类是预测分类标号(或离散值),而预测建立连续值函数模型
数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类或概念集。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标
号属性的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习
无指导的学习(或聚类),那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道
通常,学习模型用分类规则、判定树或数学公式的形式提供
第二步使用模型进行分类。首先评估模型(分类法)的预测准确率
评估分类准确率的多种方法。保持(holdout)方法是一种使用类标号样本测试集的简单方法。这些样本随机选取,并独立于训练样本。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类
“预测和分类有何不同?”预测是构造和使用模型评估无标号样本,或评估给定样本可能具有的属性值或值区间。在这种观点下,分类和回归是两类主要预测问题;其中,分类是预测离散或标称值,而回归用于预测连续或有序值。然而,我们的观点是:预测类标号为分类,预测连续值(例如,使用回归方法)为预测。这种观点在数据挖掘界广泛接受。
可以对数据使用下面的预处理,以便提高分类和预测过程的准确性、有效性和可规模性。
n 数据清理:是旨在消除或减少数据噪音(例如,使用平滑技术)和处理遗漏值(例如,用该属性最常出现的值,或根据统计,用最可能的值替换遗漏值)的数据预处理。尽管大部分分类算
法都有处理噪音和遗漏值的机制,但该步骤有助于减少学习时的混乱。
n 相关性分析:数据中许多属性可能与分类和预测任务不相关。例如,记录银行贷款星期几签署的数据可能与应用的成功不相关。此外,其它属性可能是冗余的。因此,可以进行相关分析,删除学习过程中不相关或冗余属性。在机器学习,这一过程称为特征选择。包含这些属性将减慢和误导学习步骤。
理想地,用在相关分析上的时间,加上从“压缩的”结果子集上学习的时间,应当少于由
原来的数据集合上学习所花的时间。因此,这种分析可以帮助提高分类的有效性和可规模性。
n 数据变换:数据可以泛化到较高层概念。概念分层可以用于此目的。对于连续值属性,这一步非常有用。例如,属性income的数值值可以泛化为离散的区间,如low, medium和high。类似地,标称值,如street,可以泛化到高层概念,如city。由于泛化压缩了原来的训练据,学习时的输入/输出操作将减少。
数据也可以规范化,特别是在学习阶段使用神经网络或涉及距离度量的方法时。规范化涉
及将属性的所有值按比例缩放,使得它们落入较小的指定区间,如-1.0到1.0,或0.0到1.0。
例如,在使用距离度量的方法中,这可以防止具有较大初始域的属性(如income)相对于具有较小初始域的属性(如二进位属性)权重过大。
分类和预测方法可以根据下列标准进行比较和评估:
n 预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。
n 速度:这涉及产生和使用模型的计算花费。
n 强壮性:这涉及给定噪音数据或具有遗漏值的数据,模型正确预测的能力。
n 可规模性:这涉及给定大量数据,有效地构造模型的能力。
n 可解释性:这涉及学习模型提供的理解和洞察的层次。
用判定树归纳分类
每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。内部结点用矩形表示,而树叶用椭圆表示。
判定树归纳的基本算法是贪心算法,它以自顶向下递归的划分-控制方式构造判定树
当判定树创建时,由于数据中的噪音和局外者,许多分枝反映的是训练数据中的异常。剪枝方法处理这种过分适应数据问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。
贝叶斯分类
贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。
朴素贝叶斯分类假定一个属性值对给定类的影响独立于其它属性的值。该假定称作类条件独立。做此假定是为了简化所需计算,并在此意义下称为“朴素的”。贝叶斯信念网络是图形模型。不象贝叶斯朴素分类,它能表示属性子集间的依赖。贝叶斯信念网络也可以用于分类。
朴素贝叶斯分类,或简单贝叶斯分类的工作过程如下:
1. 每个数据样本用一个n维特征向量X ={x1 , x2 ,..., xn}表示,描述由属性A1 , A2 ,..., An对样本的n个度量。
2. 假定有m个类C1 ,C2 ,...,Cm。给定一个未知的数据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci ,当且仅当:
P(Ci | X ) > P(C j | X ) 1£ j £ m j ¹i.
这样,我们最大化P(Ci | X )。其P(Ci | X )最大的类Ci称为最大后验假定。
3. 由于P(X) 对于所有类为常数,只需要P(X |Ci )P(Ci )最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即,P(C1 ) = P(C2 ) = ... = P(Cm )。并据此对只P(Ci | X )最大化
贝叶斯信念网络说明联合概率分布。它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形,可以在其上进行学习。这种网络也被称作信念网络、贝叶斯网络和概率网络。为简洁计,我们称它为信念网络。
后向传播分类
后向传播是一种神经网络学习算法。神经网络最早是由心理学家和神经学家提出的,旨在寻求开发和测试神经的计算模拟。粗略地说,神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相相联。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。由于单元之间的连接,神经网络学习又称连接者学习。
神经网络需要很长的训练时间,因而对于有足够长训练时间的应用更合适。它需要大量的参数,这些通常主要靠经验确定,如网络拓扑或“结构”。
k-最临近分类
最临近分类基于类比学习。训练样本用n维数值属性描述。每个样本代表n维空间的一个点。
这样,所有的训练样本都存放在n维模式空间中。给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本。这k个训练样本是未知样本的k个“近邻”。“临近性”用欧几里德距离定义
预测
连续值的预测可以用回归统计技术建模
在线性回归中,数据用直线建模。线性回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)视为另一个随机变量X(称为预测变量)的线性函数。