分布式系统可靠性设计

分布式系统可靠性设计

ID:39320682

大小:366.00 KB

页数:60页

时间:2019-06-30

分布式系统可靠性设计_第1页
分布式系统可靠性设计_第2页
分布式系统可靠性设计_第3页
分布式系统可靠性设计_第4页
分布式系统可靠性设计_第5页
资源描述:

《分布式系统可靠性设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、主要内容10.1分布式容错模型10.2进程的恢复10.3可靠的客户服务器通信10.4可靠的分组通信10.5分布式提交10.6恢复处理10.7习题2009-11-10东北大学软件所于戈110.1分布式容错模型可依赖系统(Dependable,Trustworthy)可用性(availability)系统可为用户服务的能力可靠性(Reliability)系统可连续工作的能力安全性(Safety)系统故障时产生危害的程度可维护性(Maintainability)系统故障修复的难度2009-11-10东北大学软件所于戈2基本概念(1)

2、失效(fail,failure)、失灵一个系统不能满足它的承诺(提供服务)差错(error):导致系统失效的原因故障(fault):导致差错发生的原因2009-11-10东北大学软件所于戈3基本概念(2)平均无故障时间(MTTF)MeanTimeToFailure平均能够正常运行多长时间,才发生一次故障。用来度量可靠性p为每秒失效概率平均无故障时间(MTTF)=Σ1∞kp(1-p)k-1=1/p例:p=10-6,MTTF=106秒=11.6天平均维修时间(MTTR)MeanTimeToRepair系统发生故障后维修和重新恢复正

3、常运行平均花费的时间用来度量可维护性可用性=(MTTF/(MTTF+MTTR))2009-11-10东北大学软件所于戈4故障的类型按照故障出现的概率短暂型(transient):出现一次,再也不出现间歇型(intermittent):消失后,再重复出现永久型(permanent):一直存在按照故障产生的原因节点故障硬件故障软件故障时序故障2009-11-10东北大学软件所于戈5基本概念(2)故障控制预防去除预告容错(faulttolerance)即使发生故障,系统仍能提供服务系统的容错能力用可允许的故障节点数量来衡量。如果系统

4、能够在k个节点出现故障的情况下仍然能够完成任务,则称该系统为k-容错系统。2009-11-10东北大学软件所于戈6失效(失败)模型失效类型描述崩溃性失效服务器停止。但在停止前一直正确工作遗漏性失败 接收遗漏发送遗漏服务器不能响应连入的请求服务器不能接收连入的消息服务器不能发送消息定时性失效服务器的响应超出规定的时间间隔响应性失效 值失效状态变迁失效服务器的响应不正确响应的值是错误的服务器偏离正确的控制流任意性失效服务器在任意的时刻产生任意的响应2009-11-10东北大学软件所于戈7失效(失败)模型失败模型故障-沉静系统(fa

5、il-silent)。由于故障产生的系统停止不能被其他节点感知。故障-停止系统(fail-stop)。由于节点故障产生的系统停止能够被其他节点感知。故障-安全系统(fail-safe)。由于节点故障而停止服务但不会产生随机故障。拜占庭(Byzantine)故障系统(随机故障系统)。由于故障导致系统产生任意的响应。恶意的、难检测。系统类型同步系统:在规定上限时间内有响应异步系统:响应时间没有上限2009-11-10东北大学软件所于戈8基于冗余的失效屏蔽技术冗余类型信息冗余:如,海明码。时间冗余:如,重发,重做物理冗余:软件:如复

6、制进程硬件:如复制电路信息冗余和物理冗余都属于空间冗余2009-11-10东北大学软件所于戈9基于冗余的失效屏蔽技术三模冗余方法(TMR,TripleModularRedundancy)三路表决器(voter):三路输入,一路输出可屏蔽一路错误(任意性失效)2009-11-10东北大学软件所于戈1010.2进程的恢复进程容错进程组:具有相同功能的进程集合组成员籍加入:具有成员籍脱离:注销成员籍多组成员籍:同时属于不同的组设计问题需要复制的程度无故障时,平均情况和最坏情况下的系统性能有故障时,平均情况和最坏情况下的系统性能200

7、9-11-10东北大学软件所于戈11组的管理(1)扁平组:所有成员是同等的层次组:协调程序和工作程序2009-11-10东北大学软件所于戈12组的管理(2)组成员籍管理组服务器:集中式管理多播通信:分布式管理NN故障后,组的退出fail-stop类型:发送Goodbye信息fail-silent类型:需其他成员发现2009-11-10东北大学软件所于戈13组的管理(3)消息同步加入组时:立刻收到所有消息退出组时:不再收到任何消息组的重建当组崩溃后,重新建立组重建协议2009-11-10东北大学软件所于戈14复制容错技术(1)复

8、制容错用多个相同的进程,屏蔽个别故障进程的故障冗余度:相同进程的个数基于主进程协议(primary-based)结构:分层组结构协议:primary-backup协议复制写协议(replicated-write)结构:平面组结构协议:基于表决数协议2009-11-10东北大学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。