减少候选项集的数据流高效用项集挖掘算法

减少候选项集的数据流高效用项集挖掘算法

ID:37329243

大小:1.85 MB

页数:5页

时间:2019-05-21

减少候选项集的数据流高效用项集挖掘算法_第1页
减少候选项集的数据流高效用项集挖掘算法_第2页
减少候选项集的数据流高效用项集挖掘算法_第3页
减少候选项集的数据流高效用项集挖掘算法_第4页
减少候选项集的数据流高效用项集挖掘算法_第5页
资源描述:

《减少候选项集的数据流高效用项集挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第34卷第11期计算机应用研究Vol.34No.112017年11月ApplicationResearchofComputersNov.2017减少候选项集的数据流高效用项集挖掘算法12茹蓓,贺新征(1.新乡学院计算机与信息工程学院,河南新乡453003;2.河南大学计算机与信息工程学院,河南开封475004)摘要:大数据环境下高效用项集挖掘算法中过多的候选项集极大地降低了算法的时空效率,为此提出了一种减少候选项集的数据流高效用项集挖掘算法。通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值

2、。基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,算法的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。关键词:大数据;数据流;高效用项集;模式挖掘;模式增长;候选模式中图分类号:TP301.6文献标志码:A文章编号:10013695(2017)11337905doi:10.3969/j.issn.10013695.2017.11.039Highutilityitemsetsminingalgorithmofdatastreamwithre

3、ducingcandidateitemsets12RuBei,HeXinzheng(1.SchoolofComputer&InformationEngineering,XinxiangUniversity,XinxiangHenan453003,China;2.SchoolofComputer&InformationEngineering,HenanUniversity,KaifengHenan475004,China)Abstract:Inthebigdatastreamscenario,highutilitypattern

4、miningalgorithmgeneratedalotofcandidateitemsetsandreducedtheefficiencyoftimeandspaceofalgorithm.Thispaperproposedahighutilityitemsetsminingalgorithmofdatastreamwithreducingcandidateitemsetstoresolvethatproblem.Firstly,itconstructedaglobaltreethroughasinglescanofthec

5、urrentwindowinadatastream,reducedredundancyutilitiesinbothentriesofaheadertableandnodesinthetreeinthisstage.Secondly,itgeneratedcandidatepatternsfromtheconstructedtree,reducedtheredundancyutilitiesoflocaltreebygrowthalgorithm.Lastly,itidentifiedasetofhighutilitypat

6、ternsfromthecandidatepatterns.Realisticdatastreamsbasedexperimentalresultsshowthattheproposedalgorithmperformsbetterinefficiencyoftimeandspaceandmemoryusageindexthantheotherhighutilitypatternminingalgorithmofdatastreams.Keywords:bigdata;datastream;highutilityitemset

7、s;patternmining;patterngrowth;candidatepattern集扫描减少为只需要进行两次数据集的扫描便可挖掘出所有!引言的高效用模式。此类算法均通过产生候选项集以实现对高效用模式的提取,但过多的候选项集严重地降低了算法的运行时随着移动互联网的普及,信息呈爆炸式增长,用户更关心[8]间与挖掘效率。针对候选项集过多的问题,文献[9]通过将最近的数据流。例如在股票市场中,用户为了观察股市波动规事务项集和项集效用信息有效地保存到树结构HUPtree中,律,重点分析近几天或最近几小时的交易情况。频繁模式挖掘

8、[1~3]提出了不需要候选项集的挖掘算法。该算法是对topk高效用是分析此类数据流的重要方案。频繁模式挖掘仅考虑项模式挖掘算法的改进,有一定的局限性。集在事务中的出现情况,并未考虑事务中各项的内部效用值(数量等)与外部效用值(利润、价格等);而高效用项集挖掘算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。