机器学习 三 输出

机器学习:输出

机器学习的输出时一系列的模式的表达方式,是推断数据输出结构的技术

以下就是输出结构的表达方式:

一、决策表

与输入的表格相似,从输入表中找到一些合适的条件组合来确定最终的结果

二、决策树

一个决策树上的节点包含了对某个特定属性的测试。叶节点给到达叶子的实例给出一个分类。当路径采用分裂成几个部分,分裂部分需要有权值,权值和为1

路径:

1.名词性属性--名词枚举,相同名词性属性不能再树种重复出现

          --名词可能的子集,可能会在一条路径上出现不止一次

2.数值属性  --区间范围,可分为区间下,区间内,区间上;残缺值有时是单独一个分支,或是多数原则

建立决策树:需要观察数据的方法来确定使用哪些属性,哪种测试方法(区间,子集等等)。

三、分类规则

结论则给出适合指定规则所覆盖实例的分类(1到n)  ,或是给出实例所在类上的概率分布,如

%start

if x=1 and y=1 then class = a;

if x=1 and w=1 then class =a;

Otherwise class = b;

%end;

(决策树不容易从规则转换为树,而且会导致重复子树问题,如a-b-x,b-c-x,或缺省值;相比决策树,会避免重复子树的问题,并且较容易添加新规则。但是相反,当规则不能对所有实例进行分类,必须用策略解决,如选择出现频率高的,而决策树是不会出现的。而且分类规则对非布尔值处理起来会很麻烦,如处理区间集合)

四、关联规则

定义:对比分类规则,关联规则可以预测任何属性,不仅仅是类。分类规则组合为规则集去决定结果,而关联规则用来揭示数据集的不同规律,用来预测不同的事物。只找出覆盖实例量大,正确率高的关联规则。

定义:覆盖量coverage是覆盖实例量

      正确率accuracy,也成置信度confidence,覆盖量所在比率

(注意:多结果的关联规则包含多重含义,如条件的置信度,条件和结果的重组关联规则)

五、包含例外的规则

定义:允许包含例外,或新发现的规则。

将与例外有关的规则取出,并用其他属性或定义边界添加例外的规则

六、包含关系的规则

规则中包含了其他规则,如if height(tower.top) > width(tower.top) then standing(tower.top).

七、数值预测树

在叶节点拥有平均数值的决策树称为回归树regression tree

包含回归公式的决策树称为模型树model tree

八、基于实例的表达

保存实例的规则表达式,新实例来后寻找以后的“相似”,也就是最邻近实例,此方法称为最邻近分类方法nearest-neighbor,当有多个邻近实例,则用经距离-加权的平均值

九、聚类

当输出是聚类,而不是一个分类器时,则输出是一个新实例如何落入聚类的图形形式。