机器学习 二 输入
机器学习:输入
一、四种学习方式:
1.分类学习 classification learning : 用一个已分类的样本集表示学习方法
2.关联学习 association learning : 寻找任何特征之间的关联
3.聚类 clustering : 寻找能够组合在一起的样本,并以此分组
4.数值预测 numeric prediction : 预测出的是一个数值量,不是离散类
1.分类学习:有称指导supervised学习,因为每一个训练样本都有一个明确的结论。
2.关联学习:因为可以预测任何一个属性,所以导致关联规则数量过多。
所以要查找一个能够适用的最小样本数量,并且大于特定的最小正确率。
(小量规则覆盖大量未来样本)
3.聚类:样本可分配到多个聚类上,找出这些聚类,并且可以将新样本归入到聚类上
4.数值预测:是分类学习的变种,预测的是数值,而不是一个类
二、样本:
输入:实例,表示单一、独立的概念样本,由一组预先定义的属性来表示
(但是在实例之间有密切关系时,需要用并列样本,递归等方法,防止关系丢失)
三、属性:
是实例的一列,分为两种:名词性值和有序值
名词性值:有范围,可枚举,离散的属性(包括二分值true false)
有序值:数值,可连续的属性
四、数据准备
1.数据收集:
数据必须集中,整合和清理。
2.ARFF格式:
是有独立的、无序的实例组成的数据集的标准表示方法,该表示方法不涉及实例之间的关系。
以下ARFF格式的例子:
%
%注释
@relation weather 关系名称
@attribute outlook {sunny, overcast, rainy} 属性列表
@attribute temperature numeric
@data 实例集,缺少的数据用?补位
sunny 89
overcast 88
3.稀疏数据
如购物的商品,文章的单词出现都是全集中的一个稀疏矩阵,
所以用非0值属性的位置、值来表示实例,如:
0,10,0,0,21为{1 10,4 21}
在ARFF中的稀疏属性也是如以上表示出@data实例集
4.属性类型
ARFF允许两种基本类型:名词性值和数量之。
对于两种基本类型的定义取决于机器学习方案:
4.1 数值作为有序的刻度处理
4.2 数值是比率值测出(定义一个标准,如减去统计平均值后处以标准差,或处以最大的一个值,或减去最小值后处以最大和最小值之差)
4.3 将名词性质作为数值编码,如日期07080217的前两位为入学日期
4.4 将数值归纳为名词性值,如20为young,将名词性可续化
5.残缺值
指的是数据出现超出正常值,或者空缺。需要了解数据的人进行残缺值处理。
6不正确的值