资源描述:
《基于实时分布式计算机系统的容错技术研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、西北大学学报(自然科学版)2006年2月,第36卷第1期,Feb.,2005,Vol.36,No.1JournalofNorthwestUniversity(NaturalScienceEdition)基于实时分布式计算机系统的容错技术研究123刘毅,臧红伟,谢克嘉(1.西安电子科技大学计算机学院710071;2.西北工业大学计算机科学与工程系,陕西西安710072;3.中国航空计算技术研究所,陕西西安710068)摘要:目的为研制适应第四代飞机高度综合化、模块化、高可靠性的航空电子系统的计算平台。方法提出了分层容错管理策略。结果由系统、分系统和模块构成
2、三级容错管理策略;由故障监控程序负责故障的监控和确认,并将确认的故障交由故障管理程序处理;由故障管理程序根据蓝图定义完成重构;重构通过逻辑功能到物理资源的不同映射方式实现;给出了这些过程的实例。结论容错功能的实现必须以保证强实时系统的确定性为前提。关键词:实时分布式计算机系统;容错;重构;蓝图中图分类号:TP393文献标识码:A文章编号:10002274Ⅹ(2006)0120041205未来航空电子系统是一个高度综合化、模块化(powersupplyelement)将其变换为各模块所需的各[1]的系统。它对作为其基础平台的实时分布式计挡电源。MSU(mo
3、dulesupportunit)负责模块的控制算机系统提出了以下的要求:低的成本、结构的开放和监控功能,包括模块的初始化、时间管理、模块的[3]性、规模的可伸缩性、技术的独立性、高的可靠性与自检测及故障记录和报告等。[2]可维护性。实时分布式计算机系统软件有应用程序、操作从可靠性的角度而言,按功能的关键性,区分为系统、硬件抽象层软件、系统管理和蓝图5部分组安全关键系统、生存关键系统和任务关键系统,其可成。硬件抽象层集中了与硬件资源(存储器管理部-6-5-4靠性要求分别为:10,10和10个故障/飞行小件、通讯资源、时间资源、中断资源、BIT资源等)有[1
4、]时。为满足上述要求,必须采用容错技术。关的软件,致使高层软件与硬件无关。操作系统与综合化的航空电子核心处理机是一个综合数据应用程序的接口APOS应符合ARINC653标准。处理、信号处理和图像处理的实时分布式计算机系APOS(应用层操作系统接口)和HWOS(硬件操作统。它由6种硬件模块组成,分别是:数据处理机模系统接口)均分为通用APOS(HWOS)与专用APOS块(DPM)、信号处理机模块(SPM)、图形图像处理(HWOS),通用APOS(HWOS)适用于所有类型的模机模块(GPM)、网络支持模块(NSM)、大容量存储块,专用APOS(HWOS)仅适
5、用于某些类型的模块器模块(MMM)和电源变换模块(PCM)。网络支持(例如GPM,MMM等)。HWLI(硬件逻辑接口)主模块具有电路开关和包开关两种工作方式,以分别要处理与通信协议有关的事宜。OSLI(操作系统逻满足视频流数据和任务数据(小数据量、突发性、低辑接口)处理不同类型处理机之间的相异问题(如时延)的需求。电路开关的控制信息从包开关得数据表示等)。蓝图中存放的是有关实时分布式计到。算机系统的应用需求、资源(包括硬件和软件)、以[4]此外,与传感器之间是点对点的高速专用传输及应用需求到资源的映射等设计信息。它包括通道;大容量存储器用于存放程序文件和
6、蓝图数据上、下电与系统初始化、任务模态管理、故障监控和库;电源模块将270V直流或115V交流供电电源变故障管理、重构管理、系统安全管理、综合测试与维换为统一的直流48V电源,然后由各模块上的PSE护功能。收稿日期:2005203201基金项目:国防科技“十五”预研基金资助项目作者简介:刘毅(19682),男,山东莱州人,西安电子科技大学博士生,从事动态二进制翻译和分布容错系统研究。©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cn
7、ki.net—42—西北大学学报(自然科学版)第35卷认该故障(见图3)。1实时分布式计算机系统的容错技术1.1分层次的容错管理策略如图1所示,该实时分布式计算机系统采用了系统、分系统和模块三级管理策略。系统级故障监控和管理负责全系统的故障处理,分系统级故障监控和管理负责辖区内所有模块的故障处理,模块级故障监控和管理负责模块本身的故障处理。当出现自身不能处理的故障情况时,则逐级上报,由高一层的故障管理负责处理。图3故障确认机制Fig.3Mechanismofverifyingfailure影响故障确认的因素较多,主要有:现时系统资源的状态、故障的严重性、
8、故障的行为(永久故障、间隙故障还是瞬态故障)。根据该因素可选择不同的W1,W2和