基于概念漂移检测的大数据在线学习算法研究

基于概念漂移检测的大数据在线学习算法研究

ID:35066741

大小:6.47 MB

页数:66页

时间:2019-03-17

基于概念漂移检测的大数据在线学习算法研究_第1页
基于概念漂移检测的大数据在线学习算法研究_第2页
基于概念漂移检测的大数据在线学习算法研究_第3页
基于概念漂移检测的大数据在线学习算法研究_第4页
基于概念漂移检测的大数据在线学习算法研究_第5页
资源描述:

《基于概念漂移检测的大数据在线学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校编号10394困书分类号TP391学号20131031密级,@巧走巧托火#全日制学术学位研究生硕i学位论文基于概念漂移检测的大数据在线学习算法研究ResearchonOnlineLearninofBiDataggBasedonConceptDriftDetection.李夢奕诺私:'.〇■.^-jr学科专业:计算机软件与理论!数据榜捕:研究方向?.2.l'指导教师.:肖如良教授y韦申请学位级别:工学硕±才换:。/..卢苗第论文提交日期:2016年6月5日一

2、论文评阅人:论文答辩日期:2016年6月2日答辩委员会主席:陈新教授学位授予单位:福建师范大学一?日期:2016年月日,少.%学位授予>6月;瞒阻I截祭I摘要.;,中文摘要随着社会的进步和新技术的不断发展,信息爆炸性的方式源源不断的产生,从而形成海量的数据流。这不仅要提高数据的收集与存储技术,而且要提高对数据流的学习能力。数据流中包含着有重要价值的信息,利用数据挖掘或者机器学习算法挖掘出隐含在数据中的信息,对很多行业都有重大意义。然而,数据流中隐含的信息(概念)也会发生不可预知,由于随着时间的推移的变化,即

3、发生概念漂移现象。而概念漂移的发生给数据流的分类学习提出了挑战,也导致传统的分类算法不能很好的适应数据流的分类学习。概念漂移数据流的在线分类学习包括两部分:概念漂移的检测和分类模型的构造与更新。本文主要研究概念漂移数据流的在线分类学习,提出了基于二重概念漂移检测机制巧基于增量支持向量机相结合的数据流分类模型。在概念漂移数据流的分类学习上,本文做了如下贡献:一二(1)提出了种概念漂移的重检测机制,即从数据性质和分类结果两个维度K-means聚类利用数据属性作为定义相似性的依据进行概念漂移的检测。,基于K-means聚类的方法从数据性质方面进行概念漂移检测;对新窗

4、口数据分类后,误一分类率是个服从伯努利分布的随机变量,基于伯努利分布的方法W误分类率作为依据从性能方面进行概念漂移检测。从性质和性能两方面进行概念漂移检测,能够检测出多种类型的概念漂移,可増强模型的概念漂移检测能力。综合考虑性质和性能两个维度的概念漂移检测结果一,可化在定程度上区分噪声数据和概念漂移数,在怯除噪声干扰的情况下提高模型的学习能力据。2一()提出了种概念漂移数据流在线分类模型。该模式采用基于増量SVM和-means相结合的方法K,其增量学习的思想符合数据流的特性,使得流式数据的学一-means聚类进行概念漂习是个循序渐进的过程,;根据K移检测其结果

5、可作为-means聚,可1更新K类和更新分类器的依据:并且^把检测出的不可分实例同原支持向量集SV合并作为新的训练集,为增量式学习提供增量数据支持。(3)把概念漂移数据流的分类学习同Spark大数据处理技术结合起来。包括支持向量机和K-means在内的机器学习算法都需要大量的迭代运算,而MU化机器学-means聚类SarkS习框架非常有利于迭代计算,并且集成了K;此外,ptreaming的I福建师范大学李奕诺硕±学位论文窗口处理机制与本文基于窗口的概念漂移检测可有机结合,使得算法的实现更加便捷。在人X数据集和真实数据集上进行验证,实验结果表明,本文

6、提出概念漂移数一,并有定的抗噪性据流在线分类模型有较好的分类效果和较强的抗概念漂移性,符合预期目标。关键词,,增量学习,Sark,,支持向量机:概念漂移数据流p大数据IIAbstractWiththeprogressofsocietyandthecontinuousdevelopmentofnewtechnology,tinformationisenera化dconsl:antlyfbrminamassofdaastream.Thisisnotonltog,gyiniprovetheabilityof化e

7、collectionandstoraeofdatabutalsotoimrove化elearnin呂,pgabitofthetastream.iatnndthedatstreattliydaThenformiobehiamisveryimporan,andtherewillbeversinificantwhenminintheinformat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。