欢迎来到天天文库
浏览记录
ID:33184687
大小:512.10 KB
页数:54页
时间:2019-02-21
《基于关联规则挖掘的分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、论文题目:基于关联规则挖掘的分类算法研究专业:计算机应用技术硕士生:许立莎(签名)指导教师:杨君锐(签名)摘要随着社会信息化的高速发展,数据挖掘技术在各领域的重要作用日益凸显出来。分类是数据挖掘领域的一种重要分析手段,而关联规则挖掘是数据挖掘领域的一个重要研究方向,两者作为数据挖掘中两个高度活跃的研究领域,有着一定的相似性—挖掘关联性强的项目集。由此以来,将这两项重要技术组合在一起,即把关联规则挖掘用于分类任务,便开启了数据分类的新征程—关联分类。关联分类实质上就是基于关联规则的分类,它既反映了知识的应用特点—分类或预测,又体现了知识内在的关联特性。各关联分类方法之间的不同之处主要体现在
2、两个方面:挖掘频繁项集所用的方法和如何分析挖掘出的规则并将其用于分类。本文在分析与比较现有关联分类算法的优势和不足的基础上,提出了一种基于P-Trie树的关联分类算法CARPT。算法使用垂直数据格式来压缩存储原始数据库,在减少数据库扫描次数的同时,方便支持数计数,从而提高算法效率;算法把频繁项集视为字符串,采用P-Trie树来存储频繁信息,然后挖掘分类关联规则,另外,其在P-Trie树构造过程中加入对频繁项类别标签支持数的计数,使其能直接去除不能生成频繁规则的频繁项目,相当于对P-Trie树的预剪枝,可有效减少P-Trie树的节点数目,进而减少挖掘过程的遍历时间。实验结果表明,该算法的分
3、类准确率和算法效率相对CBA和CMAR算法有所提高,算法克服了CMAR算法中存在冗余节点的不足,明显节省了内存空间。因此,该算法是有效可行的。关键词:;数据挖掘;关联规则挖掘;分类算法;关联分类;P-Trie树研究类型:理论研究Subject:ResearchofClassificationAlgorithmBasedonAssociationRuleMiningSpecialty:ComputerApplicationTechnologyName:XuLisha(Signature)Instructor:YangJunrui(Signature)ABSTRACTWiththerapid
4、developmentofinformationsociety,theimportanceofdatamininginallfieldsismoreandmoreprominent.Intheareaofdatamining,classificationisanimportantanalyticalmethod,andassociationruleminingisanimportantresearchdirection.Astheyaretwohighlyactiveresearchareasindatamining,theyhavesimilaritiesinminingitemset
5、swithstrongrelevance.Therefore,thecombinationofthetwotechniquesthatapplyminingassociationrulesinthetaskofclassificationopensanewjourneyfordataclassification-associativeclassification.Associativeclassificationisessentialclassificationbasedonassociationrules,whichnotonlyreflectstheapplicationcharac
6、teristicsofknowledge-classificationandprediction,butalsoembodiestheinherentassociatedcharacteristicsofknowledge.Thedifferencesbetweentheassociativeclassificationmethodsaremainlyreflectedintwoaspects:themethodusedinminingfrequentitemsetsandanalyzingtheminedrulesforclassification.Onthebaseofanalyzi
7、ngandcomparingbothstrengthsandweaknessesoftheexistingassociativeclassificationalgorithm,thispaperpresentsanassociativeclassificationalgorithmbasedonP-Trietree,namedCARPT.Thisalgorithmusesaverticaldataformattocompressan
此文档下载收益归作者所有