欢迎来到天天文库
浏览记录
ID:33801192
大小:653.70 KB
页数:69页
时间:2019-03-01
《基于投影数组和加权fp-tree的频繁项集挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工学硕士学位论文基于投影数组和加权FP-tree的频繁项集挖掘算法研究曹海燕燕山大学2010年12月万方数据国内图书分类号:TP311.131国际图书分类号:621.3工学硕士学位论文基于投影数组和加权FP-tree的频繁项集挖掘算法研究硕士研究生:曹海燕导师:何海涛教授申请学位级别:工学硕士学科、专业:计算机软件与理论所在单位:信息科学与工程学院授予学位单位:燕山大学万方数据ClassifiedIndex:TP311.131U.D.C.:621.3DissertationfortheMasterDegreeinEngineerin
2、gRESEARCHONFREQUENTITEMSETSALGORITHMBASEDONPROJECTIONARRAYANDFP-TREECandidate:CaoHaiyanSupervisor:Prof.HeHaitaoAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerSoftwareandTheoryUniversity:YanshanUniversity万方数据燕山大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《基于投影数组和加权FP
3、-tree的频繁项集挖掘算法研究》,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字日期:年月日燕山大学硕士学位论文使用授权书《基于投影数组和加权FP-tree的频繁项集挖掘算法研究》系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。
4、本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日万方数据摘要频繁项集挖掘是数据挖掘领域中一个比较关键的问题。然而,从大型稠密数据集中挖掘频繁项集存在三个主要的瓶颈问题:第一,算法的挖掘效率不是很高;第二,产生的频繁项集的数量太多;第三,没有采
5、用合理的约束思想,不能有效的挖掘用户兴趣模式。本文针对这些问题,将研究重点放在频繁项集挖掘算法上,其研究成果可广泛应用于客户购买行为模式预测、序列分析和软件安全分析等领域。首先,本文提出了基于投影数组的频繁项集挖掘算法MFIPA。基于垂直和水平混合数据格式,通过交集操作找到与单个频繁项共同发生的项集,产生投影数组PArray;然后,通过单个频繁项与其投影的非空子集合并及深度优先搜索策略的使用,挖掘所有的频繁项集。其次,为了减少频繁项集的数量,设计了一个新颖的频繁闭项集挖掘算法FCIL-Mine。基于投影数组,首先提出了频繁闭项集框架
6、数据结构FCIL,该框架主要是用来存储频繁闭项集的一些信息。然后,通过哈希检测和包含检测剪枝策略的使用,进而挖掘所有的频繁闭项集。最后,提出了一个基于加权FP-tree及长度递减支持度约束的加权频繁项集挖掘算法LWFI-Mine。该算法可以有效的挖掘满足用户兴趣的项集。首先通过扫描数据库,构造数据结构加权FP-tree。然后提出加权最小有效扩展性质WSVE及基于此性质的三种剪枝策略:事务剪枝、结点剪枝和路径剪枝,缩小了FP-tree的搜索空间,进而挖掘所有满足约束的频繁项集。本文使用C++语言对上述算法进行实现,采用稀疏的人工数据集
7、T40I10D100K和稠密的真实数据集Connect进行频繁项集挖掘实验研究。关键词频繁项集;频繁闭项集;投影数组;长度递减支持度约束;权值约束;深度优先搜索I万方数据AbstractFrequentitemsetsminingisacrucialprobleminthefieldofdatamining.Buttherearethreemaindifficultproblemswhenminingfrequentitemsetsfromlargedensedatabase.First,theefficiencyofalgorit
8、hmsisnotveryhigh;Second,largenumbersoffrequentitemsetswillbegenerated;Third,fewalgorithmsrefertothereasonableconstrai
此文档下载收益归作者所有