欢迎来到天天文库
浏览记录
ID:33091857
大小:8.41 MB
页数:73页
时间:2019-02-20
《增量更新关联规则挖掘方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、哈尔滨工程大学硕士学位论文增量更新关联规则挖掘方法的研究姓名:王春华申请学位级别:硕士专业:计算机应用技术指导教师:宁慧2012-03增量更新关联规则挖掘方法的研究摘要当今社会是一个信息社会,信息瞬息万变。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。如何才能不被信息淹没,而是从中发现有用的知识,提高信息利用率?面对这一挑战,数据挖掘技术应运而生。关联规则是数据挖掘中一个很重要的分支,它能发现事物之间的关系,从而得到数据内部潜在有价值的信息。随着
2、时间的推移,数据库总是在不断的变化,于是如何高效地从更新后的数据库中对已经推导出的关联规则进行更新成为人们探究的热点。已有的成熟的增量更新关联规则挖掘方法大致可以分为两类:一类是基于Apriori算法,如FUPl、FUP2算法等,另一类是基于FP树算法,如FIUA2算法等。这两类算法都有自身的缺点,前者的缺点是需要多次扫描数据库,很耗时间,后者的缺点是需要多次生成条件FP树,很耗空间。本文在总结前人算法的优缺点的基础上,给出了基于图的关联规则增量更新挖掘算法,算法充分考虑了挖掘需要,只需要扫描一次数据库,并且减少了冗余候选集的生成,在提高空间使用率的同时又提
3、高了挖掘效率。本文所作的工作有:首先,对已有的经典算法及其改进算法进行了深入的研究,包括Apriori算法、FP树算法、FUP算法、DLG算法等,分析了这些算法的优缺点。对一些新颖的算法技术进行了探讨和学习,如数值型数据集的处理问题、模糊约束概念等。其次,给出了图的四叉链表存储结构,分析了该结构引入的优点,并且基于该结构给出了完全频繁项集挖掘算法GIUl和最大频繁项集挖掘算法GIU2,给出了算法描述和实例演示。再次,鉴于图的优点,将图的结构拓展到模糊时态的数据集增量更新挖掘应用中,给出了模糊时态增量更新完全频繁项集的挖掘算法FuzzyGIU,分析了图在模糊时
4、态环境下使用的合理性和有效性,并对算法进行了描述和实例演示。最后,对这些算法进行了仿真实验,并与相关的已有算法进行了性能对比。结果表明了本文给出的基于图存储结构的几个算法在数据集规模和最小支持度各自变化时的挖掘效率表现都比已有算法好,从而验证了这些算法的有效性。关键词:关联规则;频繁:顷集;时态约束;模糊理论;图AbstractToday,ss。cietyis舭infc.rmati。ns。ciety,theinformati。nischangingrapidly.whenhugeinformationbringsc01weniencestopeopie,it
5、alsobringsmanyproblems:Thefirstisthattheinf-o衄ationisSOexc;essivethatitisdifficulttodigest;thesecondisthatitisdifficulttodistinguishbetweentrueandfalsefromtheinformation;thethird1sthat1t1sdimculttoensurethesecurit),oftheinformation;theforthisthatitisdimculttodealwimtheinfomationbec
6、auseoftheirformsarenotuniform.HowcanwenotbeoVe础lmedbyinfo衄ation,but舶mⅥ恤ChtodiscoverusefulknowledgeandimproVe1n士’o咖atlonutilization9Facedwiththisdaallenge,dataminingtechniqueshaveemerged·Assoclatlonmleisaveryimportantbranchofdatamining,itcanfindtherelationshipbetweenthings,andthenpe
7、oplecallgetthepotentialvaluableinformationamongdata·Thedatabasewiualwavscontinuetochangeovei’time,SOhowtoefficientlyupdatetheaheadytoundaSsociationmlesfromtheupdateddatabasebecomesthefocusofpeoPle’s1nqu町TheexistingmatureincrementalupdateassociationruleminingmethodscaIlbedividedinto
8、觚ocategories:onebasedonApr
此文档下载收益归作者所有