欢迎来到天天文库
浏览记录
ID:34557049
大小:6.97 MB
页数:135页
时间:2019-03-07
《流数据监控关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ADissertationSubmittedtoZhejiangUniversityfortheDegreeofDoctorofPhilosophy⑧TITLE:ResearchonKeyTechnologiesfor...DataStreamMonitoring.Author:XiaozhenZho—u—Subject:College:SubmittedDate:』垒堕坠垒醒!垒:2Q!垒浙江大学博士学位论文摘要近年来,伴随着信息技术的发展,流数据这一实时、连续、无限的数据类型出现在人们生活的各个领域中。流数据的主要特点是:1)数据量大、数据产生速度快;2)短暂易逝
2、、快速变化;3)数据重要性随时间而下降。系统监控应用作为确保大型分布式计算机系统运行的重要模块,持续不断地接收着海量监控信息,这些信息具有流数据的上述特点。如何保证系统监控应用能有效处理这些数据,及时发现系统异常情况,预测可能出现的异常并提前采取措施,是一个具有学术和现实双重意义的研究方向。本文以分布式系统监控为背景,从流数据处理的角度,针对系统监控的特点和当前监控数据处理存在的挑战,研究了提高流数据监控分析处理能力的几个关键问题:(1)每个时刻都有新的监控数据到达,监控应用需要处理的数据规模十分巨大。面对有限的计算资源与巨大的数据量之间的矛盾,如何选择需要监控的对象
3、至关重要;(2)在流数据监控中,数据变化迅速,因此监控模型需要对其中出现的异常进行及时检测和快速高效响应,并随时更新模型以应对数据的变化;(3)在检测异常和学习异常模式的基础上,流数据监控模型需要通过对系统运行指标的预测,提前推断异常发生的概率。如何对系统异常进行准确高效的预测,在需要确保连续正常运行的分布式系统中,也是一个重要的问题。本文主要围绕以上三点内容进行研究,即流数据中的特征选择,异常检测和异常预测。流数据特征选择:本文提出了一种适用于流数据监控的改进信息值特征提取算法,针对流数据监控中监控特征过多、新的特征会不断进入的问题,使用信息值(Informatio
4、n.value)算法来进行特征提取。该算法是一种基于阈值判断每个浙江大学博士学位论文摘要特征对于最终异常分类重要性的方法。在流数据环境下,特征代表的数据不是固定的,因此特征的重要性也会有所改变。传统的特征选择方法在这种情况下需要反复计算所有特征的重要性而后对其进行排序。本文提出的改进后的信息值算法,在保留了原信息值算法通过阈值判断特征的基础上,做出了两点改进:1)考虑了各特征之间的相关性,去除相互冗余的特征;2)使用相关性向量来保存特征之间的冗余度,在流数据监控中仅需对增量数据而非全部数据进行计算。流数据异常检测:当前的大规模系统通常采用分布式、层次化的监控架构。监控
5、节点部署在每个工作节点上,中心管理节点收集监控节点的数据并汇总后进行分析和管理。随着节点数目的增多,通讯开销会逐渐增大,中心节点将会成为数据处理的瓶颈。本文考虑了工作节点的时间相似特性,提出了基于最窄平行线的流数据压缩算法NPLA,并在此基础上利用带有权重的集成分类模型来对系统异常进行检测。NPLA算法将监控到的流数据近似成一些线段,在中心节点和工作节点上都记录流数据的近似信息。当工作节点新到达的数据与近似结果之间的误差小于阈值时,监控节点不向管理节点更新监控数据。反之,当新到达的数据与近似结果之间的误差大于阈值时,监控节点向管理节点更新监控数据。这样一来监控数据更新
6、的频率大大降低。在精简监控数据的基础上,中心管理节点通过聚合集成分类模型进行异常检侧。利用缓存数据块并使用不同的算法来训练分类器,避免了数据变化和错误数据对异常检测精度的影响。流数据异常预测:针对传统离散时间马尔可夫使用粗粒度状态边界的缺陷,状态周围波动的数据真实值与预测值相差较大。证据马尔可夫算法通过定义模糊的状态边界来解决了这一缺陷。本文在证据马尔可夫算法的基础上提出了适用于流数据场景的置信马尔可夫预测算法。该算法通过使用基于流数据的Ⅱ浙江大学博士学位论文摘要聚类算法来动态地产生和维护马尔可夫转移矩阵,因此只需储存每一个聚类的均值,而并不需要像证据马尔可夫法那样储
7、存所有的数据。每当有新数据到来的时候,该数据或是直接落入现有的聚类中,或是产生一个新的聚类并导致原有的两个聚类合并。这一算法解决了传统的马尔可夫算法中边界观测值扰动的问题,与证据马尔可夫法相比大大减少了计算量并节约了时间,在动态复杂的流数据环境下更为可行。关键词:流数据,监控,特征选择,异常检测,异常预测Ill浙江大学博士学位论文AbstractWiththedevelopmentofinformationtechnologyinrecentyears,datastream,anewtypeofdatawhichisrealtime,continuo
此文档下载收益归作者所有