数据挖掘之挖掘大型数据库中的关联规则学习笔记
挖掘大型数据库中的关联规则
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。
关联规则挖掘寻找给定数据集中项之间的有趣联系
规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性,。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。
设I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D 是数据库事务的集合,其中每个事务T
是项的集合,使得T Í I。每一个事务有一个标识符,称作TID。设A 是一个项集,事务T 包含A当且仅当A Í T。关联规则是形如A Þ B 的蕴涵式,其中A Ì I,B Ì I,并且A Ç B = Æ。规则A ÞB 在事务集D 中成立,具有支持度s,其中s 是D 中事务包含A È B(即,A 和B 二者)的百分比。
它是概率P(A È B)。规则A Þ B 在事务集D 中具有置信度c,如果D 中包含A 的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即
support (A Þ B ) = P(A È B)
confidence (A Þ B ) = P(B|A)
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,我们用0%和100%之间的值,而不是用0 到1 之间的值表示支持度和置信度。
项的集合称为项集15。包含k 个项的项集称为k-项集。
项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup,如果项集的出现频率大于或等于min_sup 与D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集16。频繁k -项集的集合通常记作Lk。
关联规则的挖掘是一个两步的过程:
找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样;
由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
关联规则挖掘:一个路线图
根据规则中所处理的值类型:如果规则考虑的关联是项的在与不在,则它是布尔关联规则。
根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则
根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则