气象高性能计算机故障监控系统的设计与实现

气象高性能计算机故障监控系统的设计与实现

ID:28229624

大小:17.74 KB

页数:4页

时间:2018-12-08

气象高性能计算机故障监控系统的设计与实现_第1页
气象高性能计算机故障监控系统的设计与实现_第2页
气象高性能计算机故障监控系统的设计与实现_第3页
气象高性能计算机故障监控系统的设计与实现_第4页
资源描述:

《气象高性能计算机故障监控系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。气象高性能计算机故障监控系统的设计与实现  摘要:气象高性能计算机在大幅提升气象部门数值预报能力的同时,给运维工作也带来了挑战。提出了一套轻量级,可拓展的高性能计算机故障监控系统设计方案,详细描述了系统的开发过程,以及开发过程中涉及问题的解决办法。系统部署后,宁波气象高性能计算机故障业务影响率从60%降低到10%以下。实践证明,该

2、系统符合宁波气象的实际需求,也为高性能计算机故障监控系统的深入研究和开发提供了思路。  关键词:高性能计算机;气象;故障监控;监控系统  中图分类号:P409文献标志码:A文章编号:1006--90-04  Abstract:ThemeteorologicalHPChasgreatlyimprovedthenumericalweatherpredictionabilityofmeteorologicaldepartment,andhasalsobroughtchallengestotheoperation

3、andmaintenance.Inthispaper,alightweightandscalabledesignschemeofHPCfaultmonitoringsystemisproposed.Thedevelopmentprocessofthesystemandthesolutiontotheproblemsinvolvedinthedevelopmentprocessaredescribedin为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏

4、目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。detail.Afterthedeploymentofthesystem,thebusinessimpactfailurerateofNingbometeorologicalHPChasbeendecreasedfrom60%tobelow10%.P

5、racticehasprovedthatthesystemconformstotheactualdemandofNingbometeorological,andalsoprovidesatrainofthoughtforthefurtherresearchanddevelopmentofHPCfaultmonitoringsystem.  Keywords:HPC;meteorological;faultmonitoring;monitoringsystem  0引言  近年来,高性能计算机已经成为提升气

6、象部门数值天气预报能力的关键因素[1-4]。气象高性能计算机运算任务密集,输入和输出数据量大,对时效性和稳定性要求很高[5],一旦发生故障,轻则对天气预报的制作产生影响,重则对防灾减灾和人民群众的生命财产安全产生威胁。各级气象部门在高性能计算机系统的建设、管理和监控上进行了大量的研究。宗翔等[6]对高性能计算机系统的架构和技术方法进行研究,设计了国家级气象高性能计算机管理与应用网络平台;吕爽等[7]对四川省气象局IBMFlex为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂

7、教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。P460高性能计算机系统的架构和管理方法进行研究,为西南区域气象中心数值预报系统的运行和研发提供了理论支撑。通过对高性能计算机系统的架构和技术方法进行研究,提升系统的健壮性,有效避免设计缺陷导致的系统级故障,如果能开发一套高性

8、能计算机监控系统,对各类运行级故障进行监控报警,会有很高的实用价值。针对这一问题,秦运龙等[8-9]使用shell语言,基于模块进行操作指令传递,通过Web页面对所有高性能计算机系统及作业进行监控和管理,设计并实现了华中区域高性能计算机监控管理平台,一定程度上解决了气象高性能计算机系�y运行监控问题,但系统也存在一些问题,如监控平台以网页方式存在,不支持手机短信方式提醒,无法实现无人值守情况下的运行监控和实时报警需求。  宁波

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。