机器学习 二 输入

机器学习:输入

一、四种学习方式:

1.分类学习 classification learning : 用一个已分类的样本集表示学习方法

2.关联学习 association learning : 寻找任何特征之间的关联

3.聚类 clustering : 寻找能够组合在一起的样本,并以此分组

4.数值预测 numeric prediction : 预测出的是一个数值量,不是离散类

1.分类学习:有称指导supervised学习,因为每一个训练样本都有一个明确的结论。

2.关联学习:因为可以预测任何一个属性,所以导致关联规则数量过多。

所以要查找一个能够适用的最小样本数量,并且大于特定的最小正确率。

(小量规则覆盖大量未来样本)

3.聚类:样本可分配到多个聚类上,找出这些聚类,并且可以将新样本归入到聚类上

4.数值预测:是分类学习的变种,预测的是数值,而不是一个类

二、样本:

输入:实例,表示单一、独立的概念样本,由一组预先定义的属性来表示

(但是在实例之间有密切关系时,需要用并列样本,递归等方法,防止关系丢失)

三、属性:

是实例的一列,分为两种:名词性值和有序值

名词性值:有范围,可枚举,离散的属性(包括二分值true false)

有序值:数值,可连续的属性

四、数据准备

1.数据收集:

数据必须集中,整合和清理。

2.ARFF格式:

是有独立的、无序的实例组成的数据集的标准表示方法,该表示方法不涉及实例之间的关系。

以下ARFF格式的例子:

%

%注释

@relation weather  关系名称

@attribute outlook {sunny, overcast, rainy} 属性列表

@attribute temperature numeric

@data 实例集,缺少的数据用?补位

sunny 89

overcast 88

3.稀疏数据

如购物的商品,文章的单词出现都是全集中的一个稀疏矩阵,

所以用非0值属性的位置、值来表示实例,如:

0,10,0,0,21为{1 10,4 21}

在ARFF中的稀疏属性也是如以上表示出@data实例集

4.属性类型

ARFF允许两种基本类型:名词性值和数量之。

对于两种基本类型的定义取决于机器学习方案:

4.1 数值作为有序的刻度处理

4.2 数值是比率值测出(定义一个标准,如减去统计平均值后处以标准差,或处以最大的一个值,或减去最小值后处以最大和最小值之差)

4.3 将名词性质作为数值编码,如日期07080217的前两位为入学日期

4.4 将数值归纳为名词性值,如20为young,将名词性可续化

5.残缺值

指的是数据出现超出正常值,或者空缺。需要了解数据的人进行残缺值处理。

6不正确的值

相关推荐