关联规则挖掘算法的优化-论文.pdf

关联规则挖掘算法的优化-论文.pdf

ID:53026650

大小:204.95 KB

页数:4页

时间:2020-04-14

关联规则挖掘算法的优化-论文.pdf_第1页
关联规则挖掘算法的优化-论文.pdf_第2页
关联规则挖掘算法的优化-论文.pdf_第3页
关联规则挖掘算法的优化-论文.pdf_第4页
资源描述:

《关联规则挖掘算法的优化-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第33卷第1期河南科学VoI_33No.12015年1月HENANSCIENCEJan.2015文章编号:1004—3918(2015)Ol一0065-04关联规则挖掘算法的优化张青(河南化工职业学院,郑州1450042)摘要:Apriori算法是关联规则挖掘的经典算法,该算法在处理规模巨大的候选项目集时存在耗时长和效率低的问题.提出了采用分割法对数据进行分片的优化算法.实验证明该算法不仅能减少数据挖掘对系统资源的占用,而且解决了数据库中数据分割下局部频繁项目序列集产生和全局频繁项目序列集的转换问题.关键词:关联规则;数

2、据挖掘;算法;优化中图分类号:TP3文献标识码:AOptimizationofAssociationRuleAprioriAlgorithmZhangQing(HenanVocationalCollegeofChemicalTechnology,Zhengzhou450042,China)Abstract:TheApriorialgorithmisaclassicalmethodologyusedfordataminingassociationrules,butthisalgorithmisrathertime—cons

3、umingandlow—efficientindealingwithmassivesetsofcandidateitems.Thisthesishasputforthanoptimalalgorithmofdatasegmentationbasedondatadivision,andtheexperimentsprovethatthisnewalgorithmnotonlyworkswelltomakeasignificiantreductionintheamountofsystemicresourcesengagedi

4、ndatamining,butalsoprovidesafinesolutiontotheformationandconversionofseriesofitemsetsoccufingfrequentlyintheprocessofdata—segmentationanddata—divisionindatabases.Keywords.-associationrule;datamining;algorithm:optimization数据挖掘是从大量的历史数据中找出未知的、潜在的和有用的知识的过程.目前数据挖掘的研究

5、方法方向主要有:特征化与比较、关联规则挖掘、分类预测和聚类分析n.找出事物之间的关联规则是数据库挖掘的重要任务之一,因此关联规则挖掘在数据库挖掘中占据着非常重要的地位.关联规则的经典算法Apriori算法乜是1994年由R.Agrawal和R.Silkant提出的,该算法能找出数据库中不同商品之间的联系规则口.随着对该算法的深入研究,发现该算法存在两个问题:一是在处理规模巨大的候选项目集时,该算法需要消耗大量的时间;二是对候选项目集进行模式匹配时需要多次重复扫描事物数据库,降低算法的速度和效率.针对以上缺陷,目前有很多对

6、Apriori算法优化的研究,常见的有:划分法,该算法先将数据库分成几个逻辑上互不相交的块,每次只需单独考虑一个分块,在每个数据块里讨论频繁项目集的发现问题,这样由于分块后的数据量减少,也使得处理的效率得以提高;减少事务个数法,其原理是如果一个事务不包含长度为k的项集,我们就将这些事务移去,因为它必然不包含长度为k+l的项集,于是在下一遍的扫描中就可以使用较少个数的事务集;采样法,先对数据库中的数据抽样,根据抽样数据得到一些规则,然后利用数据库的剩余数据验证上述关联规则是否正确;Hash法,将预扫描的项目分别放到不同的H

7、ash桶中,对每个桶中的项目子集进行测试,本算法能减少侯选集生成的代价.本文提出一个新的发现频繁项目序列集的算法DISS—DM,本算法是在ISS—DM算法n的基础上改进而成收稿日期:2014—09—01基金项目:河南省高等学校青年骨干教师资助计划(2011GGJS一207)作者简介:张青(1973一),女,副教授,硕士,研究方向为数据库、数据仓库、数据挖掘.一66一河南科学第33卷第1期的,它采用了数据分割的方法,只需要两次数据库扫描,就能找出频繁项集.1DISS—DM算法设计DISS-DM算法的思想:用户首先确定将数据

8、库分割的份数n和期望能达到的最小支持度Suptcount;接—下来将数据库分割成个分片;对每个分片生成其最小支持度,根据每个分片的最小支持度生成局部频繁项目序列集,并将该局部频繁项目序列集加载到多对应的频繁项目序列中;最后对整个数据库进行一次全面扫描,生成全局的频繁项目序列集.DISS—DM算法设计如下:算法DISS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。