欢迎来到天天文库
浏览记录
ID:8268573
大小:357.21 KB
页数:7页
时间:2018-03-15
《基于组件状态分析的故障源定位方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、18《高性能计算发展与应用》2014年第四期总第四十九期基于组件状态分析的故障源定位方法丁超汪逵曾明霞栾钟治钱德沛北京航空航天大学计算机学院北京100091摘要:在基于组件的云服务系统中,监控点往往部署在顶层业务组件,而底层的功能组件,例如交换节点和数据节点,却基本不会有监控点部署。当顶层业务节点抛出异常告警,监控管理员需要马上做出响应,以免故障的进一步扩散。但是规模越来越大,结构越来越复杂的云服务应用,以及它们所依托的大型数据中心,使得异常管理越来越困难。而故障源定位不仅能够有效收敛业务异常
2、告警数量,还能够协助管理员定位解决故障。本论文提出了一种基于组件状态分析的故障源定位方法。就我们所知,我们首次提出一种针对只有顶层业务组件有监控点,而功能组件没有监控点部署的云服务系统的故障源挖掘方法,并且我们的方法基于组建状态分析。我们已经在真实企业环境中实验本论文中的方法,并且取得了较好的结果。关键词:故障源挖掘,故障分析,高频链路模式挖掘引言关联的时间局限性。在云服务越来越普及的年代,企业的数据中心下面,在第2部分,我们介绍了当前故障源定位常常部署着大量的网络服务及应用,包括电子商务与故障
3、发现技术的研究现状,第3部分描述了系统概服务,分布式的媒体流服务以及与我们生活息息相况,第4部分详细描述了我们方法的三个步骤并且通关的社交网络。对于这些应用和服务,失去了可用过第5部分的实验进行方法验证。在最后一部分,我性,可靠性以及可依赖性会导致严重的损失。们对论文结果进行了总结并规划了未来的工作。在分布式的企业系统中,一定会有故障监控中心来监控系统异常,当有业务组件抛出异常告警,1.研究现状会由监控中心捕获到,并且告知相应的监控管理人故障源定位技术和故障发现技术都已经经员,监控管理人员需要对
4、故障做出快速处理,以免过了很长时间的研究。传统的方法,例如ping,heartbeat[1]以及HTTP错误代码监控[2],都已经在检测故障进一步发展和扩散。但是随着规模越来越大,结构越来越复杂的云服务应用部署在大型数据中业务组件服务或机器的存活性和可用性方面被广泛心,异常管理也变得越来越具有挑战。底层功能组应用。还有很多基于统计学的方法,应用于对业务件的硬件或者软件问题都会引发多个顶层业务组件组件的故障发现。比如说,论文[3]中的工作将基于的故障告警。若一个组件C的故障引发了一系列的网络的系统
5、视作一个权重的图,使用基于图的挖掘组件故障并且产生了顶层业务组件告警,我们称组算法检测故障,但这个方法仅仅能够发掘故障异常而不能定位故障源。Magpie[4]使用随机上下文无关语件C为故障源。在基于组件的云服务系统中,监控点通常部署于顶层业务组件,而底层的功能组件,法模型为多台计算机请求的控制流建模,目的是检测组件故障以及性能瓶颈。项目Pinpoint[5]使用类似例如交换节点和数据节点,却基本不会有监控点部署。但是,通常情况下功能节点是大多数故障的故于Magpie的方法,使用两种统计技术分析请
6、求路径障源,这使得我们更加难以定位故障源。在本论文模型和组件调用关系用以基于网络的系统中的故障发现。PeerWatch[6]是一个基于实例建模的故障发现中,我们提出了一种基于组件架构的故障源挖掘方法,我们的方法主要通过获取分析功能组件性能状和故障源定位工具,同样使用统计和数据分析的方态,挖掘故障传播链路,这样的方法能够轻易部署法,利用组件关联关系去检查每一个应用实例的状于现存的监控系统中。我们的方法也没有时间窗口态。但是PeerWatch针对的是虚拟化的整合系统,不高性能计算技术19能解决传统基
7、于组件的分布式系统中故障定位的问对特定业务的调用关系链路,调用关系链路是有向题。论文[7]认为系统故障常常由人为对系统的改动无环图,由业务组件和功能组件构成节点,由组件产生,于是提出了一种基于组件调用拓扑的具有弱间调用关系构成边。我们称调用关系图为TCG图(时间关联性的故障改动发现算法,能够自动定位导TransactionCallGraph)。致故障的人为改动。这个系统依赖人为改动管理,并不适合在当前大规模组件分布的云服务系统中做故障源定位的方案。2.系统概述这部分,主要介绍整个故障源检测系统背
8、景与基础假设,故障源检测的基本步骤,系统基本架构以及系统的输入和输出。下面首先介绍系统的背景与基础假设。图1调用示例2.1系统背景与基础假设5.通过论文中所述方法得到的是组件或者由组件本论文中介绍的方法主要立足于大型云服务系构成的局部调用链路,这些组件有极大的可能包含统的监控背景之下。大型云服务系统中监控面临最故障源,这些调用链路有极大的可能是故障链路的严峻的问题就是云服务的监控系统会产生海量的告一部分。这些组件可以帮助管理人员分析故障调用警信息,这些故障告警信息之中包含了一部分来自链,得到故障
此文档下载收益归作者所有