一种改进apriori算法研究

一种改进apriori算法研究

ID:36228387

大小:340.00 KB

页数:9页

时间:2019-05-07

一种改进apriori算法研究_第1页
一种改进apriori算法研究_第2页
一种改进apriori算法研究_第3页
一种改进apriori算法研究_第4页
一种改进apriori算法研究_第5页
资源描述:

《一种改进apriori算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一种改进的算法研究摘要:算法是一种最有影响的挖掘关联规则的算法。该算法的基本思想是,首先找出所有的频集。通过频集,得出关联规则,这些规则必须满足最小支持度和最小可信度。本论文提出改进的算法,主要是通过引入兴趣项、频数阀值,来提高挖掘的效率;通过动态挖掘数据关系来方便用户的需求。通过多次实验证实,本算法较传统算法在时空复杂度上有较大的提高。关键词:算法;最小可信度;动态挖掘;兴趣项;频数阀值AStudyofImprovingAlgorithmAbstract:Thealgorithmisoneofthemostinfluentialforminingassocia

2、tionrules.Thebasicideaofthealgorithmistofirstidentifyallthefrequentsets.Throughthefrequentsets,derivedassociationrules,theserulesmustsatisfyminimumsupportandminimumconfidence.Thispaperpresentsimprovedalgorithms,mainlythroughtheintroductionofinterestinitems,frequencythreshold,toimprov

3、etheminingefficiency;relationshipsthroughdynamicdataminingtofacilitatetheneedsofusers.Confirmedbymanyexperiments,thisalgorithmisbetterthantraditionalalgorithmsintimeandspacecomplexity.Keywords:algorithm;minimumconfidence;dynamicmining;interestitems;frequencythreshold1前言随着人工智能、数据库技术和数

4、理统计等技术的发展,数据库中的知识发现(KDD)和数据挖掘技术(DM)随之而生。在事务数据库中挖掘关联规则是数据挖掘的重要研究方向,关联规则是KDD研究中一个重要的研究课题,用于发现大量数据的项集之间有趣的关联或相关联系[1]。数据挖掘的主要技术为关联规则、聚类、粗糙集、神经网络和遗传算法等。关联规则表示数据库中一组对象之间某种关联关系的规则,它在数据挖掘领域应用很广泛。它可以分成两个子问题[2],寻找满足最小支持度的频繁项目集和用频繁项目集,根据最小可信度来产生关联规则。其中第一个问题是开销最大的,因此目前大多数关联规则挖掘算法都致力于提高寻找频繁项目集的效率

5、。有一些方法扩展了关联规则,如数值型关联规则[3],多层关联规则[4]。目前已提出了许多挖掘关联规则的算法,其中最为经典的是算法。本文是在算法的基础之上,通过引入兴趣项和频数阀值来减少对数据库的检索。采用动态挖掘来方便用户需求,能很好的满足客服的需求,提高算法的效率。2关联规则关联规则挖掘起源于对超市购物问题的分析,用于发现交易数据库中不同商品之间的联系,这些联系反映了顾客购买行为模式。发现这样的联系可以应用于顾客购物分析、目录设计、商品广告邮寄分析等。在数据挖掘研究领域,对于关联规则挖掘的研究开展得比较深入,已提出了多种关联规则挖掘算法。目前,关联规则挖掘已成

6、功应用于各个相关领域,成为数据挖掘中最成熟、最主要、最广泛的研究内容之一[5]。2.1相关概念为了便于描述,在此约定:表示事务数据库中的一个属性,是事务数据库中所有属性的集合,表示事务数据库中的一个事务,表示一个事务数据库,表示事务数据库的事务数。这里,集合中的元素可以重复。为避免重复的事务被遮盖,本文给事务数据库中的每一个事务指定一个唯一的标识符。项集的支持度是数据库中包含的事务在整个数据库中所占的比率。关联规则的置信度是数据库中项集出现时项集出现的条件概率。支持度的阀值是关联规则挖掘时项集必须满足的最小支持度。置信度的阀值是关联规则必须满足的最小置信度。支持

7、度大于或等于支持度的阀值的项集称为频繁项集。2.2传统的算法介绍首先需要挖掘出频繁1-项集;然后,继续采用递推的方式来挖掘频繁k-项集(k>1),具体做法是:在挖掘出候选频繁k-项集之后,根据最小置信度来筛选,得到频繁k-项集。最后合并全部的频繁k-项集(k>0)。置信度大于给定最小置信度的关联规则称为频繁关联规则。在这一步,首先需要从频繁项集入手,首先挖掘出全部的关联规则,然后根据来得到频繁关联规则。2.3示例说明算法设事务数据库如表1所示,为50%,为70%,求事务数据库D中的频繁关联规则。表1事务数据库表项目集1ABCDE2ABC3CDEF4ABE执行过程

8、如下:第一步:求频繁项集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。