一种有效的挖掘数据流近似频繁项算法

一种有效的挖掘数据流近似频繁项算法

ID:33326222

大小:282.65 KB

页数:9页

时间:2019-02-24

一种有效的挖掘数据流近似频繁项算法_第1页
一种有效的挖掘数据流近似频繁项算法_第2页
一种有效的挖掘数据流近似频繁项算法_第3页
一种有效的挖掘数据流近似频繁项算法_第4页
一种有效的挖掘数据流近似频繁项算法_第5页
资源描述:

《一种有效的挖掘数据流近似频繁项算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,Vol.18,No.4,April2007,pp.884−892http://www.jos.org.cnDOI:10.1360/jos180884Tel/Fax:+86-10-62562563©2007byJournalofSoftware.Allrightsreserved.∗一种有效的挖掘数据流近似频繁项算法1+1,211,2王伟平,李建中,张冬冬,郭龙江1(哈尔滨工业大学计算机科学与技术

2、学院,黑龙江哈尔滨150001)2(黑龙江大学计算机科学与技术学院,黑龙江哈尔滨150080)AnEfficientAlgorithmforMiningApproximateFrequentItemoverDataStreams1+1,211,2WANGWei-Ping,LIJian-Zhong,ZHANGDong-Dong,GUOLong-Jiang1(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)2

3、(SchoolofComputerScienceandTechnology,HeilongjiangUniversity,Harbin150080,China)+Correspondingauthor:Phn:+86-451-6415872,E-mail:wpwang@hit.edu.cn,http://www.hit.edu.cnWangWP,LiJZ,ZhangDD,GuoLJ.Anefficientalgorithmforminingapproximatefrequentitemoverdatastreams.Jou

4、rnalofSoftware,2007,18(4):884−892.http://www.jos.org.cn/1000-9825/18/884.htmAbstract:Afrequentitemofadatastreamisadatapointwhoseoccurrencefrequencyisaboveagiventhreshold.Findingfrequentitemofdatastreamhaswideapplicationsinvariousfields,suchasnetworktrafficmonitor,

5、datastreamOLAPanddatastreammining,etc.Indatastreammodel,thealgorithmcanonlyscanthedatainonepassandtheavailablememoryspaceisverylimitedrelativetothevolumeofadatastream,thereforeitisusuallyunabletofindalltheaccuratefrequentitemsofadatastream.Thispaperproposesanovela

6、lgorithmtofindε-approximate−1frequentitemsofadatastream,itsspacecomplexityisO(ε)andtheprocessingtimeforeachitemisO(1)inaverage.Moreover,thefrequencyerrorboundoftheresultsreturnedbytheproposedalgorithmisε(1−s+ε)N.Amongalltheexistedapproaches,thismethodisthebest.Key

7、words:datastream;datamining;frequentitem;ε-approximate摘要:数据流频繁项是指在数据流中出现频率超出指定阈值的数据项.查找数据流频繁项在网络故障监测、流数据分析以及流数据挖掘等多个领域有着广泛的应用.在数据流模型下,算法只能一遍扫描数据,并且可用的存储空间远远小于数据流的规模,因此,挖掘出所有准确的数据流频繁项通常是不可能的.提出一种新的挖掘数据流近似频−1繁项的算法.该算法的空间复杂性为O(ε),每个数据项的平均处理时间为O(1),输出结果的频率误差界限为ε(1−s+ε

8、)N,在目前已有的同类算法中均为最优.关键词:数据流;数据挖掘;频繁项;ε-近似中图法分类号:TP311文献标识码:A∗SupportedbytheKeyProgramoftheNationalNaturalScienceFoundationofChinaunderGrantNo.60533110(国家

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。