数据挖掘入门 -

一、概念性名词

1、数据的离散化

有些数据本身很大, 自身无法作为数组的下标保存对应的属性。如果这时只是需要这堆数据的相对属性, 那么可以对其进行离散化处理。当数据只与它们之间的相对大小有关,而与具体是多少无关时,可以进行离散化。

例如:

①原数据:1,999,100000,15;处理后:1,3,4,2;

②原数据:1234567、123456789、12345678、123456

排序:123456<1234567<12345678<123456789

=>1<2<3<4
那么这4个数可以表示成:2、4、3、1
 
2、概念分层
通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)
 
3、过拟合
一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

相关推荐