欢迎来到天天文库
浏览记录
ID:36749055
大小:6.82 MB
页数:70页
时间:2019-05-14
《关联规则挖掘算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、太原理工大学硕士研究生学位论文㈨㈣㈨㈨㈣Ⅲ㈣叭㈨洲Y2156161关联规则挖掘算法的研究摘要随着时代的快速发展和数据库技术的日臻成熟,产生的数据量以几何倍数增长,我们迫切地希望从海量数据背后挖掘出某些规律或者有价值的东西,也就是信息,来指导我们未来的发展。而数据挖掘正满足了这样的需要,它是一种新的信息分析技术,利用计算机‘21从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们预先不知道的、具有潜在利用价值信息和知识的过程。目前,数据挖掘主要分为关联规则挖掘、聚类、分类、时序模式发现等几大分支。而关联规则挖掘作为其中最为重要的一个分支,在应用方面得到了广泛的发展。
2、关联规则挖掘是通过分析数据库,进而发现数据库中大量项集之间的关联关系。它最早由Agrawal提出,并在AIS算法基础上进行了完善而后提出了Apriori算法,Apriori算法是最经典的关联规则挖掘算法。它利用逐层搜索的迭代方法,从数据库中挖掘出满足最小支持度和置信度阈值的关联规则。Apriori算法分为连接和剪枝两步。但Apriori算法有其固有缺陷:1、各阶段产生的G过大,尤其是当k:2时,候选集数目惊人。2、每生成一个候选集,都会扫描一遍数据库,造成了巨大的I/O开销,也增加了算法的时间复杂度。本文针对上述问题提出了一种改进的关联规则挖掘算法,主要思路为:1、采用矩阵这种数据结构,扫描一
3、遍数据库,将原始事务数据库转化为0—1矩阵,不仅节省了存储空间,而且在进行数据挖掘操作时可抛弃原T太原理工大学硕士研究生学位论文始数据库,只利用矩阵,减少了扫描数据库造成的I/0开销。2、利用原始矩阵和其转置矩阵,进行矩阵运算,得到2一候选集集合,矩阵运算简单,加快了项集的查找速度。3、根据结果上三角矩阵分析数据,减少了候选数据项的数量,更快的确定频繁项集,快速得到所需的关联规则。通过实验对比分析,该算法具有较低的时间复杂度和较高的运行效率。正因如此,加上矩阵占有极小的内存空间,将该算法应用到超市零售业的大数据集关联规则挖掘中,找出销售物品间的关联规则,为超市在今后制定销售策略提供了科学决策依
4、据,因此该算法具有极大的实用性和适用性。关键词:数据挖掘,关联规则挖掘,Apriori算法,矩阵,矩阵运算THERESEARCHOFASSOCIATIONRULESMININGALGOR』THMABSTRACTAsthetimedevelopsrapidlyandthetechnologyofdatabasegetsmaturegradually,thequantityofdataproducedhasballoonedexpoentially,SOweareeagertogetsomerulesorsomethingvaluablefromthemajorityofdata,whichare
5、alsonamedasinformation,toguideUStodeveloppracticallyinthefuture.Datamining,whichcouldmeettherequirement,isanoveltechnologyofinformationanalysis,whichcouldextractthehidden,implicit,valid,novelandinterestingspatialornon—spatialpattemsorrulesfromlarge—amount,incomplete,noisy,fuzzy,random,andpracticalda
6、tabyusingcomputer.Atpresent,dataminingmainlyinvolvesassociationrules,clustering,classification,time—seriespatternsdiscoveryandSOon.Associationrulesmining,asoneofthemostimportantbranchesofdatamining,hasawideapplicationinvariousaspects.Itcandiscoverrelationshipbetweenitemsetsaccordingtoanalyzingdataba
7、se.AssociationrulesminingwasproposedoriginallybyAgrawal,andputforwardApriorialgorithmafterimprovingtheAISalgorithm.Apriorialgorithmisthemostclassicalassociationrulesminingalgorithm.Itusestheiterationm
此文档下载收益归作者所有