欢迎来到天天文库
浏览记录
ID:36773498
大小:2.31 MB
页数:55页
时间:2019-05-15
《完全频繁项集挖掘算法及其在分类中应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大连理工大学硕士学位论文完全频繁项集挖掘算法及其在分类中应用研究姓名:张勇申请学位级别:硕士专业:模式识别与智能系统指导教师:韩敏20091201大连理工大学硕士学位论文摘要随着社会科技的进步,信息量呈几何级增长,如何从大量信息中提取出潜在相互关联的知识集合体,成为当前数据挖掘领域中迫切需要解决的一个问题。频繁项集的提出,为解决该问题提供了一个有效的方法。频繁项集是指从数据中提取出满足支持度阈值的的信息集合体,它包含着大量潜在有用信息,能够有效地为人类提供决策支持。目前基于Apriori算法思想的完全频繁项集挖掘算法能够有效地实现稀疏型数据集和短模式下的挖掘工作,但在密
2、集型数据集和长模式下,挖掘效率不高,因此应用受到很大限制。针对当前完全频繁项集挖掘算法在密集数据集和长模式挖掘上存在的效率问题,本文提出了一种Apriori改进算法,该算法引入垂直比特数据表示方法以及交叉计数方式,利用索引向量表生成候选二项集,同时将非频繁二项集用于候选项集的剪枝,并在计数阶段,采用前缀数组数据结构优化计数方式。实验结果表明,经改进后的Apriori算法能够有效地挖掘密集数据集和长模式下的频繁项集。为了进一步提高计数的效率,在前文研究的基础上,引入差集思想,计数由之前的完全标识集交叉计数转化为差集标识集计数,从而迸一步地提高了Apriori算法的运行效率
3、。最后,本文将频繁项集研究成果应用于分类中。传统的分类算法存在分类过程黑箱操作,分类结果无法解释的缺点,而基于频繁项集的关联规则分类算法能够有效解决上述闯题,但由于缺乏有效的规则评价指标,分类精度普遍不高。鉴于此,本文提出一种新的关联规则分类算法。它引入了兴趣度规则评价指标,有效地删除分类信息少的冗余规则,并利用权重准则对规则重要性进行排序,进而达到提高分类精度的目的。关键字:数据挖掘;关联规则;频繁项集;关联分类规则;Apriori算法完全频繁项集挖掘算法及其在分类中应用研究ResearchonAllFrequentItemsetsMiningAlgorithmand
4、ItsApplicationtotheClassificationAreaAbstractWiththecurrentadvancesinsocialtechnology,theamountofinformationgrowsexponentially,howtoextracttheusefulknowledgecollectionfromsuchbigamountinterrelatedinformation,hascurrentlybecomeoneofthecriticaIproblemsinthedataminingfield.Thepropositionoff
5、requentitemsetsisalleffectivesolvingmethod.Frequentitemsetsareacollectionofinformationwhichisextractedfromlargeamountsofdatathatpassthesupportthreshold.Theycontainalargenumberofpotentiallyusefulknowledge,andcalleffectivelyprovidedecisionsuppoaforhuman.Currently,frequentitemsetsminingalgo
6、rithmsbasedonAprioripricipleareeffectiveonsparsedatasetsandshortpatterns,butnotondensedatasetsandlongpatterns,thus,theirapplicationisgreatlylimited,AnimprovedApfiofialgorithmisproposedtodealwiththemimngproblemonthedensedatasetandlongpattern,whichcannotbeeffectivelyhandledbythecurrentfreq
7、uentitemsetsminingalgorithms.Thenewalgorithmintegratestheverticaldatastructureandintersectingmethod,andusestheindexvectortabletogeneratecandidate2-itemsets,besides,italsousesthenon·frequent2-itemsetstoprunethecandidateitemsets,andadoptstheprefixArraytooptimizetheintersect
此文档下载收益归作者所有