数据挖掘之挖掘大型数据库中的关联规则学习笔记

Mrright00

2013-10-17

挖掘大型数据库中的关联规则

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储，许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系，可以帮助许多商务决策的制定，如分类设计、交叉购物和贱卖分析。

关联规则挖掘寻找给定数据集中项之间的有趣联系

规则的支持度和置信度是两个规则兴趣度度量，它们分别反映发现规则的有用性和确定性，。关联规则是有趣的，如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。

设I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D 是数据库事务的集合，其中每个事务T

是项的集合，使得T Í I。每一个事务有一个标识符，称作TID。设A 是一个项集，事务T 包含A当且仅当A Í T。关联规则是形如A Þ B 的蕴涵式，其中A Ì I，B Ì I，并且A Ç B = Æ。规则A ÞB 在事务集D 中成立，具有支持度s，其中s 是D 中事务包含A È B（即，A 和B 二者）的百分比。

它是概率P(A È B)。规则A Þ B 在事务集D 中具有置信度c，如果D 中包含A 的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即

support (A Þ B ) = P(A È B)

confidence (A Þ B ) = P(B|A)

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计，我们用0%和100%之间的值，而不是用0 到1 之间的值表示支持度和置信度。

项的集合称为项集15。包含k 个项的项集称为k-项集。

项集的出现频率是包含项集的事务数，简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup，如果项集的出现频率大于或等于min_sup 与D 中事务总数的乘积。如果项集满足最小支持度，则称它为频繁项集16。频繁k -项集的集合通常记作Lk。

关联规则的挖掘是一个两步的过程：

找出所有频繁项集：根据定义，这些项集出现的频繁性至少和预定义的最小支持计数一样；

由频繁项集产生强关联规则：根据定义，这些规则必须满足最小支持度和最小置信度。

关联规则挖掘：一个路线图

根据规则中所处理的值类型：如果规则考虑的关联是项的在与不在，则它是布尔关联规则。

根据规则中涉及的数据维：如果关联规则中的项或属性每个只涉及一个维，则它是单维关联规则

根据规则集所涉及的抽象层：有些挖掘关联规则的方法可以在不同的抽象层发现规则

关联规则 text-align margin 大数据数据挖掘事务 em

安科网

数据挖掘之挖掘大型数据库中的关联规则学习笔记

Mrright00

挖掘大型数据库中的关联规则

Mrright00

相关推荐

零基础的程序员们，关于大数据挖掘的知识点，都在这里了

改进的Apriori算法和协同过滤（Collaborative Filtering）算法

千锋扣丁学堂大数据培训之大数据分析必备知识点总结

关联规则挖掘——Apriori算法的基本原理以及改进

关联规则二项集Hadoop实现

Mrright00