基于apriori性质的多维关联规则数据挖掘

基于apriori性质的多维关联规则数据挖掘

ID:5642304

大小:213.00 KB

页数:18页

时间:2017-11-13

基于apriori性质的多维关联规则数据挖掘_第1页
基于apriori性质的多维关联规则数据挖掘_第2页
基于apriori性质的多维关联规则数据挖掘_第3页
基于apriori性质的多维关联规则数据挖掘_第4页
基于apriori性质的多维关联规则数据挖掘_第5页
资源描述:

《基于apriori性质的多维关联规则数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Apriori性质的多维关联规则数据挖掘汇报人:王雷背景知识关于数据挖掘关联规则及Apriori算法数据挖掘是一项从大量的记录数据中提取有价值的、人们感兴趣的知识,这些知识是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(Concepts)、规则(Rules)、规律(Regularides)、模式(Patterns)等形式。关联规则是当前数据挖掘研究的主要方法之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。例:在销售手机的商店中,70%的包含手机的交易中包含充电器,在所

2、有交易中,有56%同时包含这两种物品。于是规则表示为手机充电器(可信度70%,支持度56%)关联规则的基本概念设是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事物T是项的集合,使得每一个事务有一个标识符TID,设A是一个项集,事务T包含A当且仅当。关联规则是形如的蕴涵式,其中,并且规则在事务D中成立具有支持度S和置信度C,把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称为项集(itemset),包含K个项集称为K-项集,如果项集满足最小支持度,则称它为频繁项集。关联规则的挖掘是一个两步的过程:1、找

3、出所有频繁项集2、由频繁项集产生强关联规则,根据定义,这些规则必须满足最小支持度和最小置信度。Apriori算法Apriori算法是最有影响的关联规则挖掘算法之一。它的中心思想是首先通过对事务数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1-项集.接下来的工作是循环的,每次循环分2步进行:1)连接,对频繁k-项集中的项进行连接.2)减枝,在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选,删除那些子集不是频繁集的项目集,得出候选(k+1)-项集.即对数据库进行扫描,计算候

4、选项的支持度,从候选集中删除支持度小于最小支持度的候选项,进而得出频繁(k+1)-项集.循环的终止条件是频繁k-项集为空,也就是说再也找不出相关联的项目了.举例说明Aporiori算法数据库D扫描DC1L1L2C2C2扫描DC3L3扫描DApriori性质频繁项集的所有非空子集也是频繁的例如:如果{AB}是频繁项目集,则{A}{B}也一定是频繁项目集加权关联规则挖掘传统的关联规则挖掘算法通常都认为数据库里每个项目都有相同的重要性,没有主要、次要之分。但在实际中,往往存在一类这样的情况:用户对每个项目的看重程度不一样,有的项目是用

5、户最看重、最关心的,有的项目是用户关注性不大,因此需要引进权重的概念。加权关联规则的描述设是项的集合,每个项都有一个权值与之对应。它们的权值分别是{w1,w2,…,wk}(wi∈[0,1])。事先指定最小加权支持度阈值为wminsup和最小置信度阈值minconf。对于项目集X,如果wsup(X)≥wminsup,则X是加权频繁的。形如X→Y的关联规则的加权支持度为:置信度的定义仍然沿用Apriori算法里的定义,即:conf(X→Y)=sup(X∪Y)/sup(X)。加权关联规则的描述对于项目集X、Y,,X∩Y=φ,如果有ws

6、up(X∪Y)≥wminsup,且conf(X→Y)≥minconf,则称X→Y是一条加权关联规则。权值的设定加权支持度(1)、平均值:(2)、归一化:(3)、最大值:想法(1)先不考虑项目的权值,利用传统的Apriori算法找出支持度不小于最小加权支持度的所有的频繁项目集。由于项目集的权值小于1,所以项目集的加权支持度一定小于支持度,所以生成的频繁集一定是加权频繁集的超集。(2)计算所生成频繁项目集中所有项目集的加权支持度,并把加权支持度小于最小加权支持度的项目集删除,从而得到所有加权频繁集。(3)利用加权频繁集来生成所有的加

7、权关联规则。Apriori的瓶颈Apriori算法的核心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈:候选集生成巨大的候选集:104个频繁1-项集要生成107个候选2-项集要找尺寸为100的频繁模式,如{a1,a2,…,a100},你必须先产生21001030个候选集多次扫描数据库:如果最长的模式是n的话,则需要(n+1)次数据库扫描提高Apriori效率的方法事务压缩:不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集基于划分:一个项集要想在整个数据库中

8、是频繁的,那么他至少在数据库的一个分割上是频繁的。采样:在给定数据的子集上挖掘,使用小的支持度+完整性验证方法动态项集计数:在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。基于哈希表的算法今后的工作加权关联规则挖掘算法的研究,项目属性加权后,A

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。