欢迎来到天天文库
浏览记录
ID:35066741
大小:6.47 MB
页数:66页
时间:2019-03-17
《基于概念漂移检测的大数据在线学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校编号10394困书分类号TP391学号20131031密级,@巧走巧托火#全日制学术学位研究生硕i学位论文基于概念漂移检测的大数据在线学习算法研究ResearchonOnlineLearninofBiDataggBasedonConceptDriftDetection.李夢奕诺私:'.〇■.^-jr学科专业:计算机软件与理论!数据榜捕:研究方向?.2.l'指导教师.:肖如良教授y韦申请学位级别:工学硕±才换:。/..卢苗第论文提交日期:2016年6月5日一
2、论文评阅人:论文答辩日期:2016年6月2日答辩委员会主席:陈新教授学位授予单位:福建师范大学一?日期:2016年月日,少.%学位授予>6月;瞒阻I截祭I摘要.;,中文摘要随着社会的进步和新技术的不断发展,信息爆炸性的方式源源不断的产生,从而形成海量的数据流。这不仅要提高数据的收集与存储技术,而且要提高对数据流的学习能力。数据流中包含着有重要价值的信息,利用数据挖掘或者机器学习算法挖掘出隐含在数据中的信息,对很多行业都有重大意义。然而,数据流中隐含的信息(概念)也会发生不可预知,由于随着时间的推移的变化,即
3、发生概念漂移现象。而概念漂移的发生给数据流的分类学习提出了挑战,也导致传统的分类算法不能很好的适应数据流的分类学习。概念漂移数据流的在线分类学习包括两部分:概念漂移的检测和分类模型的构造与更新。本文主要研究概念漂移数据流的在线分类学习,提出了基于二重概念漂移检测机制巧基于增量支持向量机相结合的数据流分类模型。在概念漂移数据流的分类学习上,本文做了如下贡献:一二(1)提出了种概念漂移的重检测机制,即从数据性质和分类结果两个维度K-means聚类利用数据属性作为定义相似性的依据进行概念漂移的检测。,基于K-means聚类的方法从数据性质方面进行概念漂移检测;对新窗
4、口数据分类后,误一分类率是个服从伯努利分布的随机变量,基于伯努利分布的方法W误分类率作为依据从性能方面进行概念漂移检测。从性质和性能两方面进行概念漂移检测,能够检测出多种类型的概念漂移,可増强模型的概念漂移检测能力。综合考虑性质和性能两个维度的概念漂移检测结果一,可化在定程度上区分噪声数据和概念漂移数,在怯除噪声干扰的情况下提高模型的学习能力据。2一()提出了种概念漂移数据流在线分类模型。该模式采用基于増量SVM和-means相结合的方法K,其增量学习的思想符合数据流的特性,使得流式数据的学一-means聚类进行概念漂习是个循序渐进的过程,;根据K移检测其结果
5、可作为-means聚,可1更新K类和更新分类器的依据:并且^把检测出的不可分实例同原支持向量集SV合并作为新的训练集,为增量式学习提供增量数据支持。(3)把概念漂移数据流的分类学习同Spark大数据处理技术结合起来。包括支持向量机和K-means在内的机器学习算法都需要大量的迭代运算,而MU化机器学-means聚类SarkS习框架非常有利于迭代计算,并且集成了K;此外,ptreaming的I福建师范大学李奕诺硕±学位论文窗口处理机制与本文基于窗口的概念漂移检测可有机结合,使得算法的实现更加便捷。在人X数据集和真实数据集上进行验证,实验结果表明,本文
6、提出概念漂移数一,并有定的抗噪性据流在线分类模型有较好的分类效果和较强的抗概念漂移性,符合预期目标。关键词,,增量学习,Sark,,支持向量机:概念漂移数据流p大数据IIAbstractWiththeprogressofsocietyandthecontinuousdevelopmentofnewtechnology,tinformationisenera化dconsl:antlyfbrminamassofdaastream.Thisisnotonltog,gyiniprovetheabilityof化e
7、collectionandstoraeofdatabutalsotoimrove化elearnin呂,pgabitofthetastream.iatnndthedatstreattliydaThenformiobehiamisveryimporan,andtherewillbeversinificantwhenminintheinformat
此文档下载收益归作者所有