数据挖掘之挖掘大型数据库中的关联规则学习笔记

挖掘大型数据库中的关联规则

 

 

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。

 

关联规则挖掘寻找给定数据集中项之间的有趣联系

 

规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性,。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。

 

I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D 是数据库事务的集合,其中每个事务T

是项的集合,使得T Í I。每一个事务有一个标识符,称作TID。设A 是一个项集,事务T 包含A当且仅当A Í T。关联规则是形如A Þ B 的蕴涵式,其中A Ì IB Ì I,并且A Ç B = Æ。规则A ÞB 在事务集D 中成立,具有支持度s,其中s D 中事务包含A È B(即,A B 二者)的百分比。

它是概率P(A È B)。规则A Þ B 在事务集D 中具有置信度c,如果D 中包含A 的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即

support (A Þ B ) = P(A È B)

confidence (A Þ B ) = P(B|A)

 

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,我们用0%和100%之间的值,而不是用0 到1 之间的值表示支持度和置信度。

项的集合称为项集15。包含k 个项的项集称为k-项集。

 

项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup,如果项集的出现频率大于或等于min_sup D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集16。频繁k -项集的集合通常记作Lk

 

关联规则的挖掘是一个两步的过程:

找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样;

由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。

 

关联规则挖掘:一个路线图

 

根据规则中所处理的值类型:如果规则考虑的关联是项的在与不在,则它是布尔关联规则。

根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则

根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则

 

相关推荐