基于数据流的top-k频繁闭项集挖掘算法研究

基于数据流的top-k频繁闭项集挖掘算法研究

ID:32967335

大小:2.36 MB

页数:60页

时间:2019-02-18

基于数据流的top-k频繁闭项集挖掘算法研究_第1页
基于数据流的top-k频繁闭项集挖掘算法研究_第2页
基于数据流的top-k频繁闭项集挖掘算法研究_第3页
基于数据流的top-k频繁闭项集挖掘算法研究_第4页
基于数据流的top-k频繁闭项集挖掘算法研究_第5页
资源描述:

《基于数据流的top-k频繁闭项集挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河南大学硕士学位论文基于数据流的Top-K频繁闭项集挖掘算法研究姓名:李玲生申请学位级别:硕士专业:计算机应用技术指导教师:姜保庆20100501河南大学硕士研究生学位论文第1页摘要随着实时监控系统数据流、网络应用中的网页记录和点击流等动态的应用环境中,不断产生海量的、时序的、实时变化和潜在无限的数据流,对数据流的挖掘已经成为数据挖掘的研究热点之一,人们对数据流挖掘的各个方面进行了研究。由于有趣的关联规则是由项集推出的,因此频繁项集和频繁闭项集也是被关注的主要方面。本文就是对持续到来的事务数据流中,在衰减滑动窗口模型下,进行挖掘算法的检验进而得到最精确的近似频繁闭项集,试验证明本文提出的算法是

2、对在线数据流的一个有效的,单遍的扫描算法。针对数据流中的top.k频繁闭项集挖掘,本文主要有以下内容:1.本文分析了数据挖掘在数据流中的应用,分析了在数据流中挖掘频繁项集的Moment和FP.stream等经典算法,以及由Hua-FuLi提出的在数据流中挖掘top.k频繁闭项集的TKC.DS算法,从而对数据流中闭项集的挖掘有了很好的理解。2.本文提出了滑动衰减窗口机制,即在滑动窗口(sw)基础上,把其等分为b个基本滑动窗口BW,给定每个BW一个衰减因子口,使得在具有衰减因子的数据流滑动窗口上挖掘频繁闭项集有了更加准确的结果;提出支持度的更新计数方法,使得最小支持度计数随着数据流的具体情况进行增

3、量更新,用户也不用设置支持度阈值,这样就避免了由用户给定最小支持度阈值的盲目和随机性。3.使用改进的窗口和支持度更新方法,用位向量来表示项集,并且对数据库中的项赋予权重,提出候选项集改进算法,候选项集的改进方法是由两部分组成的,即否定边界Bd.(X)和事务Td的不完全子集subset(Td),subset(Td)且[J是指除了已经存在于HTC中的闭项集之外的子集组成的。本文在前人研究的基础上提出了改进的频繁闭项集挖掘算法Top.k.FCI,此算法运用了基本衰减滑动窗口机制,支持度的增量更新方法进行实时剪枝,并且运用了候选项集的选择进行闭项集FCI的挖掘,在准确度和近似挖掘结果上有了很大的改进。

4、在滑动窗口中得到精确的频繁闭项集是一项非常消耗时间和内存需求的工作,因此我们只用进行按照支持度递减的前k项top.K近似频繁闭项集的挖掘,本第1I页河南大学硕士研究生学位论文文进行的这些工作能够为数据流的诸多挖掘应用领域提供相应的服务。关键词:数据挖掘;数据流:频繁闭项集;top—KAbstractWiththedevelopmentofdatastreams,suchasnetworkmonitoringinrealtime,logrecords.clickstre锄sandthecalldetailrecordsintelecommunications.Intheabovedynamica

5、llyenviromenttheygeneratethegiant,continuous,changingineverytimeandboundedstreamdatas.Soagreatdealofattentionhasbeenconcemedonthestreamdatamininginthedatamining.Fortheindepthanalysis,datamining,andtheinterestingpa_ttems,trendandoutlierintheboundedstreamdata,researchershavealreadyhadadetailedanalysis

6、ineveryaspectofstreamdata.Onaccountoftheinterestingassociationruleswhicharegeneratebyfrequentitems.frequentitemsandclosedfrequentitemsaregraduallypaiedgreatattentions·Accordingthecontinuousarrivalofthedatastream,inthemechanismofdampedwindowthispaperanalyzedthealgorithmtheresearcherspresented,inthefu

7、rthermore,theapproximatefrequentcloseditemsarealsogivenbythealgorithm.Experimentalstudiesshowthatthealgorithmisanefficient,single-passforonlineminingofthesetoftop.kcloseditemsetoverstreamdampedsliding

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。