欢迎来到天天文库
浏览记录
ID:32030372
大小:4.72 MB
页数:61页
时间:2019-01-30
《【硕士论文】关联规则算法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要关联规则是由Agrawal等人提出是KDD数据研究的重要内容,也是当前比较热门的研究课题,关联规则挖掘算法的性能好坏直接决定了数据挖掘在现实世界中的应用。本文首先对经典关联规则挖掘算法进行分析,讨论其优缺点,包括Apriori算法、Sampling算法署Hpartition算法等,然后针对经典算法采用水平数据布局事务数据库数据压缩不足的问题,给出了事务数据库垂直数据布局形式的TDA存储结构,并研究基于TDA存储结构的TDA关联规则挖掘算法及TDA关联规则并行挖掘算法。接着针对当前经典算法存在的项目公平性问题,提出了加权关联规则算法,其中包
2、括垂直加权关联规则、水平加权关联规则以及混合加权关联规则。最后,使用TDA-J关联规则仿真实验系统,对Apriori、TDA、以及TDA力N权算法的效率以及用户关注度进行了比较。关键词:数据挖掘,关联规则,TDA,并行算法,加权ABSTRACTTheAssociationrulethatwasfirstlyadvancedbyAgrawalisthefocusofKDDresearchandstillahottopicamongthesespecialistswhodevotetodataminingresearchtoday.Wefirst
3、lydiscussedclassicalalgorithmsofassociationrulesmining,includingApdorialgorithm、SamplingandpartitionandSOon.Then,Tosolvethedissatisfactorydatacompressionproblemofclassicalalgorithmsbyusinghorizontaldatalayouttransactiondatabase,westructureoftransactiondatabase,andtopresentt
4、heTDA.basedstorageresearchtheTDAassociationruleminingalgorithmandTDAAparallelAlgorithmforMiningAssociationRules.Besidesthese,inordertosolvethecurrentexistenceofthefairnessoftheproject,weproposetheweightedassociationrulesalgorithm,includingtheverticalweightedassociationrules
5、,theleveloftheweightedmixedweightedassociationrulesandassociationrules.Finally,usetheTDA-Jassociationrulessimulationsystems,tocomparetheApriori,TDA,andTDA—weightedalgorithmefficiency,anduseraRention.KEYWORDS:datamining,associationrules,TDA,parallelalgorithm,weighted硕士学位论文第一
6、章绪论与综述第一章绪论与综述1.1课题的研究背景及意义近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘(DataMining,简称DM)技术的产生和飞速发展。数据挖掘是一种能够智能地、自动地把数据转换成有用信息和知识的技术,它不但可以帮助人们从数据库,特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息,而且也可以帮助人们从不同角度上去分析它们,从而更有效地利用数据Ⅲ。它不仅可以用于描述过去数据的发展过程,而且还能进一步预测未来的
7、发展趋势。因此,数据挖掘正在成为一个崭新的、日益受到重视的热点研究领域。关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,是知识发现(KnowledgeDiscoveryinDatabase,简称KDD)技术研究的重要内容。随着数据的积累,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。关联规则挖掘算法是关联规则挖掘研究的主要内容。典型的关联规则挖掘算法是R.Agralwal等人提出的Apriori算法瞳1,其余算法大多是以Apriori为核心,或是其变体,或是其扩展。Apriori算法在挖掘过程中需要多次扫描原始数据库,并产生大
8、量候选项集,因此存在挖掘效率低,占用内存空间大等不足。针对Apriori算法的不足,许多专家学者通过大量的研究工作,相继提出了一些优化的方法。例如,Park等人提出
此文档下载收益归作者所有