欢迎来到天天文库
浏览记录
ID:10370630
大小:54.50 KB
页数:4页
时间:2018-07-06
《探索 aix 6:新特性概览(下)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、探索AIX6:新特性概览(下) 可用性 RAS组件框架 企业级的RAS(Reliability,Availability,Serviceability)历来是IBMSystemp服务器和AIX操作系统的核心优势,在AIX6中,其RAS特性又有了大幅增强,提供了一个组件式的RAS基础框架,其中包含以下组件(又称之为Domain): RTEC(Run-TimeErrorChecking):运行时故障检查,可对系统组件(包括硬件和软件)的故障检测,严重程度级别和处理动作进行定义。AIX6中很多设备驱动和子系
2、统都使用了该组件提供的服务,例如VMM子系统,存储和磁盘驱动,网络驱动等等。 CT(ponentTracing):新增的跟踪(Tracing)调试手段。可以用于系统跟踪时提供额外的更加细致的过滤,或者作为单独的跟踪手段来帮助诊断系统问题。 CD(ponentDump):对Dump功能的增强。Dump信息的详细程度可以进行细化控制,并且可执行LiveDump(dump过程不需要停止系统,dump结束后系统继续运行)。 基于这个框架,AIX系统自身的各个部分和第三方的软件都可以向系统注册并执行其特有的故障检
3、测和控制,tracing和dump等功能,以提供更加强大和灵活的RAS特性。 伴随着RAS组件框架还增加了一系列的系统管理命令,其中最主要的是errctrl,ctctrl和dumpctrl命令,可对各个AIX各个子系统或者设备的RTEC,CT和CD属性进行控制。 Dump功能的增强 Dump是AIX系统中用于故障诊断的一项非常重要的功能,dump数据中包括了故障发生时的内存内容和处理器状态等信息,可用于重现故障时的场景以进行分析。旧式的dump方法是在崩溃时对整个系统的内存都进行转储,由于现代系统的物理
4、内存越来越大,进行一次完整dump的时间也越来越长,间接的增加了由于宕机带来的停机时间。AIX6中引入了几种新的dump手段,更加灵活方便,对业务影响更小。下表对各种dump方式做了总结:方式AIX版本说明传统dump所有原始方式,随着CPU数量的增加,物理内存的加大,dump需要的时间也越来越长。MinidumpV5.3TL3数据不是像传统的dump方式那样保存到磁盘上,而是保存到NVRAM中,系统下次启动时,再写入到errorlog中。因此Minidump的容量非常小,只保存了关键的信息,同时转储所需要的
5、时间也很短。ParalleldumpV5.3TL5Dump数据存储的格式发生改变,数据块以无序方式存储,使得多处理器的系统可以按照每个处理器同时转储一块区域的方式将内存数据写入到dump设备。此改进使得大型系统(多CPU,大内存)的dump速度得到大大提升,仅仅受限于I/O速度。ponentDumpV6在上一主题RAS组件框架中我们已经提到,ponentDump使得管理员可以对dump的详细程度和各组件的dump属性进行更加精确的控制。LiveDumpV6LiveDump方式基于新的ponentDump框架。
6、执行时,只有那些注册到CD框架并且声明为支持LiveDump特性的组件才会有数据转储。LiveDump还有另外一项非常重要的特性,就如其名称表明的一样,在dump时不需要重新启动系统。因此LiveDump方式减少了需要转储的数据并显著的降低了dump所需要的停机时间。FirmpV6传统的dump方式实际上是由已经发生故障的AIX内核进行的,这样存在两个问题: 如何保证由已经故障的内核所写入的数据的正确性 故障严重到内核已经无法进行dump时,即无法收集任何dump信息 在POanager)的组件,所有需
7、要提供故障自动回复的内核组件或者扩展模块都会向RecoveryManager注册其特定的恢复例程(RecoveryRoutine)。当某个组件发生错误时,它会产生一个异常,将执行转交给RecoveryManager,由其执行该组件的恢复例程。当恢复例程执行结束后,RecoveryManager会将执行交还该组件,使其继续运行下去。 恢复例程内通常会执行以下操作,使得出错的组件可以恢复到正常的执行状态: 收集故障数据 检查并恢复数据结构 对组件出错时持有的资源进行相应的处理或者释放 决定修复为故障而应
8、采取的措施 恢复例程通常在尝试进行任何恢复动作前会先触发一个LiveDump,并在AIXerrorlog中会记录一次内核故障恢复事件(Lable为RECOVERY、RECOVERY_NOTIF或RECOVERY_TIME)。 内核故障恢复功能的开启可以通过raso命令来进行控制,包括受限参数recovery_action、recovery_average_threshold、recovery_d
此文档下载收益归作者所有