资源描述:
《一种基于双层窗口的概念漂移数据流分类算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第37卷第9期自动化学报Vol.37,No.92011年9月ACTAAUTOMATICASINICASeptember,2011一种基于双层窗口的概念漂移数据流分类算法朱群1张玉红1胡学钢1李培培1摘要数据流中概念漂移问题的研究已成为近年来流数据挖掘领域的研究热点之一.已有的研究工作多依据单窗口中错误率的变化来检测概念漂移,难以适应不同类型的漂移.为此,本文提出一种新的基于双层窗口机制的数据流分类算法(Double-windows-basedclassi¯cationalgorithmforconceptdriftingdatastreams,DWCDS),该算法采用随机决策树模型构建集成
2、分类器,利用双层窗口机制周期性地检测滑动窗口中流数据分布的变化,并动态地更新模型以适应概念漂移.分析与实验结果表明:该算法可以快速有效地跟踪检测含噪数据流中的概念漂移,且抗噪性能与分类精度显著提高.关键词数据流,概念漂移,分类,随机决策树,滑动窗口DOI10.3724/SP.J.1004.2011.01077ADouble-window-basedClassi¯cationAlgorithmforConceptDriftingDataStreams1111ZHUQunZHANGYu-HongHUXue-GangLIPei-PeiAbstractTrackingconceptdriftsin
3、datastreamshasrecentlybecomeahottopicindatamining.Mostoftheexistingworkisbuiltonasingle-window-basedmechanismtodetectconceptdrifts.Duetotheinherentlimitationofthesingle-window-basedmechanism,itisachallengetohandledi®erenttypesofdrifts.Motivatedbythis,anewclassi¯cationalgorithmbasedonadouble-window
4、mechanismforhandlingvariousconceptdriftingdatastreams(DWCDS)isproposedinthispaper.Intermsofanensembleclassi¯erinrandomdecisiontrees,adouble-window-basedmechanismispresentedtodetectconceptdriftsperiodically,andthemodelisupdateddynamicallytoadapttoconceptdrifts.Extensivestudiesonbothsyntheticandreal
5、-worddatademonstratethatDWCDScouldquicklyande±cientlydetectconceptdriftsfromstreamingdata,andtheperformanceontherobustnesstonoiseandtheaccuracyofclassi¯cationisalsoimprovedsigni¯cantly.KeywordsDatastream,conceptdrift,classi¯cation,randomdecisiontree,slidingwidow数据流已广泛出现在如网络安全、股票分析等点,即窗口值较大有利于低漂移率
6、的数据流处理,实际应用领域[1¡2],这些数据具有快速性、连续性、却不适应新的目标函数;而小窗口能较快地适应概多变化和无限性等特点[3],且概念漂移[4]现象常常念漂移(突变式或渐近式),却常常由于事例不足导出现.这使得建立在原始数据集上的模型不再适应,致学习不充分[9]".从而给传统分类问题提出极大的挑战.因此,本文提出一种新的依据窗口中原始数据目前,针对数据流中的概念漂移问题,已提出了分布变化检测概念漂移的数据流分类算法DWCDS一些新的分类算法.其中,包括基于单棵决策树模型(Double-window-basedclassi¯cationalgorithmfor的算法[5]、基于集成
7、分类器的算法[6¡8]等.然而,上conceptdriftingdatastreams),该算法采用双层窗述算法多采用单滑动窗口机制在分类器局部结构中口机制跟踪概念漂移,并动态地调整窗口大小以增检测数据是否发生漂移,存在单窗口机制固有的弱强算法的适应性,克服了单窗口机制检测概念漂移的不足.实验表明:与单层窗口相比,双层窗口机收稿日期2010-09-29录用日期2011-03-18制有较优的漂移检测能力;此外,DWCDS算