欢迎来到天天文库
浏览记录
ID:40004737
大小:395.00 KB
页数:61页
时间:2019-07-17
《[计算机硬件及网络]诊断与容错技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、容错技术与诊断技术课程性质:计算机专业选修课前修课程:组成原理、操作系统、概率论南京航空航天大学计算机学院钱忠民qzm_mail@nuaa.edu.cn2021/7/171课程内容:第一章容错系统概述第二章可靠性的基本知识第三章可靠性的分析方法第四章冗余技术第五章马尔可夫模型分析法第六章软件容错技术第七章容错系统设计和典型的容错系统介绍第八章故障诊断技术存储技术及其他。。。2021/7/172第一章容错系统概述第一节可靠性是计算机系统的重要性能指标一般讲到计算机性能指标时往往只考虑:CPU功能:·速度(如:主频)·指令系统(包括CPU寄存器)·寻址能力(寻址空间)·存储系统:Cache、主
2、存容量、组织方法、管理机构·外设配置和采用的总线等2021/7/173但是,随着计算机应用领域扩大出现了许多对可靠性有特殊要求的应用领域,对这些系统来说,可靠性是极其重要的性能指标。例如:1、工业、交通、航空:飞行控制计算机,一旦故障,有可能造成机毁人亡的严重后果要求在10-20小时飞行任务期间内失效的可能性低于10-9工业控制:如:核电站、化工厂的过程控制。如控制失灵会造成重大事故。2021/7/174交通:如:铁路运输中的信号系统通讯:如程控交换机等2、商业、金融对信息的安全可靠有极高要求3、长寿命、高可靠应用·航天:人造卫星的通讯控制如:美国的STAR系统(SelfTestandRe
3、pair)保证在十年中可靠运行的时间≥95%,只允许短暂的停顿(比如几分钟)2021/7/175这些领域对计算机的可靠性提出在正常条件下难以达到的要求。比如,市售的成品计算机的可靠性指标:MTBF(平均故障间隔时间)为300-10000小时。在10小时内可靠度仅0.997-0.999(故障可能为3×10-3→1×10-3)。在运行10000小时时候,可靠运行的概率仅0.368左右2021/7/176第二节容错技术与非容错技术提高可靠性的方法有两种:1、非容错方法(避错技术)避错方法是保证可靠性的主要和基本的方法。它采用预防为主的手段。2021/7/177硬件措施:·严格地进行元件筛选、老化
4、处理·采用成熟技术,防止设计错误·严格遵守加工工艺如:制板、装配、调试·在保证功能、性能要求前提下采用最简单的设计方案·降负荷运行。比如:降低主频、降低通讯线的数据传输率·改善运行环境:空调、防震、防尘、防潮2021/7/178软件措施:·模块化、结构化程序设计·完善的、规范的文档资料·严格的调试2021/7/179避错方法是保证系统可靠性的基础,也是必不可少的手段。但是单靠避错方法不能达到上述高可靠性指标,这是因为:1)元件质量受当时工艺水平限制,在一个时期只能达到一定水平。比如50年代计算机采用电子管为主要元件,其平均寿命为800小时。采用特殊工艺可达1500-2000小时,此时价格已
5、高出常规价格几十倍。当时计算机采用18000只电子管,平均每小时有9-12个管子损坏。2021/7/17102)设备的可靠性随复杂性增加而降低。复杂的设备使用的器件种类和数量都多,不可避免有较高的故障率。而随着计算机应用范围的不断扩大,系统复杂性日益增加。可靠性问题也日趋严重。要获得高可靠的系统,还必须在系统结构上想办法,使系统具有抵抗故障的能力,因而产生了容错设计的方法2021/7/17112.容错方法:正如采用预防为主的方针后仍需要医院一样,象计算机系统这样复杂的系统不可避免有故障发生。对有高可靠性要求的应用系统来说,必须有在故障发生时仍保证系统正常工作的手段,这就是容错的手段。202
6、1/7/1712容错能达到常规方法所不能达到的高可靠性例如:美国70年代研制的FTMP系统和SIFT系统能保证在10小时飞行任务期间,可靠度高于0。99999999,即108架次飞行(每次10小时)飞行计算机失效的可能不到1次采用容错技术,并不否定避错技术。相反,容错技术必须和避错技术相结合,才能使系统达到理想的可靠性。2021/7/1713容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。设计与分析容错计算机系统的各种技术称为容错技术容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统2021/7/1714实现容错计算的四个
7、方面(1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。(2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。2021/7/1715(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应
此文档下载收益归作者所有