欢迎来到天天文库
浏览记录
ID:36347284
大小:3.66 MB
页数:69页
时间:2019-05-09
《不确定数据频繁项挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP39密级:编号:102011302桂林理工大学硕士研究生学位论文不确定数据频繁项挖掘的研究专业:计算机应用技术研究方向:数据挖掘研究生:黄佳欢指导老师:陈超泉副教授论文起止日期:2013年4月至2014年5月万方数据TheResearchofMiningFrequentIteminUncertainDatasetMajor:ComputerApplicationTechnologyDirectionofStudy:DataMiningGraduateStudent:HuangJiahuanSuperviso
2、r:Prof.ChaoquanChenCollegeofComputerScienceandEngineeringGuilinUniversityofTechnologyApril,2013toMay,2014万方数据万方数据摘要频繁项挖掘作为数据挖掘领域研究的重要主题之一,已被证实具有一定的理论价值,并且在市场选择、决策支持和商务管理等方面得到广泛的应用。随着科学理论和技术的发展,金融,传感器网络和医学等领域涌现大量不确定数据。简单忽略数据的不确定性,应用传统算法挖掘频繁项产生的结果难以令人信服。近年来,针对不确定数
3、据的频繁项挖掘逐渐成为研究热点,大部分研究成果基于传统频繁项挖掘算法改进,如U-Apriori算法、UF-growth算法等,性能勉强接受,但有待深入研究。鉴于此,本文针对UF-growth算法和U-Apriori算法进行改进和优化,进一步提高不确定数据中频繁项挖掘的效率。针对UF-growth算法构造大量树结点和分枝的局限性,提出压缩UF-tree算法,放宽构建树结构标准:不考虑数据项的存在概率,数据项名一旦与树结构中对应结点匹配,共享该结点,否则,考虑从未匹配结点处开辟新分枝,当前数据项及事务中其后的所有数据项作为
4、结点有序地添加到新分枝中,事务中最后处理的数据项对应的结点保存事务编号。借鉴概念格理论中的等价类关系产生候选项,缩减遍历分枝的路径次数。构建概率向量结构,集中存储单项频繁项的存在概率,结合事务编号集,利用点积运算统一处理所有候选项的支持度,经过支持度约束过滤,产生所有频繁项。通过实验证明,与UF-growth算法相比,压缩UF-tree算法效率更高。针对U-Apriori算法多次遍历数据库的缺陷进行改进,结合Eclat算法思想,提出UF-Eclat算法。将不确定数据项的存在概率进行抽离,保存在概率向量之中。采用Ecla
5、t算法的深度优先搜索策略,以单项频繁项构建初始结点,同层兄弟结点构成子数据库,利用概念格理论的等价关系,产生基于当前结点的原子项,作为项集搜索树的下层结点,实现i项频繁项产生(i1)项频繁项。在迭代过程中,利用概率向量点积运算计算候选项的支持度,通过支持度约束过滤非频繁项,使用Apriori性质对树分枝进行前修剪,抑制树结构的过度增长。通过实验证明,UF-Eclat算法结果与U-Apriori算法相同,性能比后者有所提升。结合压缩UF-tree算法和UF-Eclat算法的工作机制,对两种算法进行对比,并分析影响算法运
6、行时间的主导因素。在不同性质的数据环境中,两者性能对比的结果不同,压缩UF-tree算法效率与事务数量以及事务间的相似性紧密相关,而UF-Eclat算法运行时间主要由属性数量和支持度阈值决定。关键词:频繁项,压缩UF-tree算法,UF-Eclat算法,概率向量,数据挖掘I万方数据AbstractAsoneofimportanttopicsinthefieldofdatamining,frequentpatternmininghasbeenshowntohavetheoreticalvalue,whichhasbeen
7、widelyusedinmarketselection,decisionsupportandbusinessmanagement.Withtheprogressofsocietyanddevelopmentoftechnology,alargenumberofuncertaindataemergesinthefieldasfinancial,sensornetworkandmedicalscience.Simplyignoringtheuncertaintyofdataandapplyingtraditionalalg
8、orithmstogenerateresultsishardtoconvincing.Inrecentyears,frequentpatternminingbasedonuncertaindatahasgraduallybecomeahottopic.MostofExistingachievementsarebasedontrad
此文档下载收益归作者所有