机器学习 三 输出
机器学习:输出
机器学习的输出时一系列的模式的表达方式,是推断数据输出结构的技术
以下就是输出结构的表达方式:
一、决策表
与输入的表格相似,从输入表中找到一些合适的条件组合来确定最终的结果
二、决策树
一个决策树上的节点包含了对某个特定属性的测试。叶节点给到达叶子的实例给出一个分类。当路径采用分裂成几个部分,分裂部分需要有权值,权值和为1
路径:
1.名词性属性--名词枚举,相同名词性属性不能再树种重复出现
--名词可能的子集,可能会在一条路径上出现不止一次
2.数值属性 --区间范围,可分为区间下,区间内,区间上;残缺值有时是单独一个分支,或是多数原则
建立决策树:需要观察数据的方法来确定使用哪些属性,哪种测试方法(区间,子集等等)。
三、分类规则
结论则给出适合指定规则所覆盖实例的分类(1到n) ,或是给出实例所在类上的概率分布,如
%start
if x=1 and y=1 then class = a;
if x=1 and w=1 then class =a;
Otherwise class = b;
%end;
(决策树不容易从规则转换为树,而且会导致重复子树问题,如a-b-x,b-c-x,或缺省值;相比决策树,会避免重复子树的问题,并且较容易添加新规则。但是相反,当规则不能对所有实例进行分类,必须用策略解决,如选择出现频率高的,而决策树是不会出现的。而且分类规则对非布尔值处理起来会很麻烦,如处理区间集合)
四、关联规则
定义:对比分类规则,关联规则可以预测任何属性,不仅仅是类。分类规则组合为规则集去决定结果,而关联规则用来揭示数据集的不同规律,用来预测不同的事物。只找出覆盖实例量大,正确率高的关联规则。
定义:覆盖量coverage是覆盖实例量
正确率accuracy,也成置信度confidence,覆盖量所在比率
(注意:多结果的关联规则包含多重含义,如条件的置信度,条件和结果的重组关联规则)
五、包含例外的规则
定义:允许包含例外,或新发现的规则。
将与例外有关的规则取出,并用其他属性或定义边界添加例外的规则
六、包含关系的规则
规则中包含了其他规则,如if height(tower.top) > width(tower.top) then standing(tower.top).
七、数值预测树
在叶节点拥有平均数值的决策树称为回归树regression tree
包含回归公式的决策树称为模型树model tree
八、基于实例的表达
保存实例的规则表达式,新实例来后寻找以后的“相似”,也就是最邻近实例,此方法称为最邻近分类方法nearest-neighbor,当有多个邻近实例,则用经距离-加权的平均值
九、聚类
当输出是聚类,而不是一个分类器时,则输出是一个新实例如何落入聚类的图形形式。