欢迎来到天天文库
浏览记录
ID:31379714
大小:106.50 KB
页数:6页
时间:2019-01-09
《高性能计算机系统管理技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、高性能计算机系统管理技术的研究 摘要:高性能计算是气象业务及科研应用的重要的基础平台,东北区域气象中心高性能计算能力迅速增强,业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。以向用户提供更好的计算资源和支撑服务为出发点,介绍了高性能计算机运行管理、用户及模式管理的技术手段,有助于减少管理和维护成本,更好的发挥计算资源的应用效益。 关键词:高性能计算机;系统管理;资源;应用;模式 中图分类号:TP31
2、5文献标识码:A文章编号:1009-3044(2015)30-0186-02 ResearchonHighPerformanceComputerSystemManagementTechnology LIUJin-xia1,LIJing1,LUANYong-ming1,WANGHui-yu,ZHAOWei1,ZHAOMiao2 (1.LiaoningProvincialMeteorologicalInformationCenter,Shenyang110166,China;2.LiaoningP
3、rovincialMeteorologicalBureau,Shenyang110001,China) Abstract:Highperformancecomputingisanimportantbasicplatformformeteorologicalserviceandscientificresearch.The6highperformancecomputingpowerofnortheastareameteorologicalcenterisrapidlyenhanced,andthebu
4、sinessandscientificresearchmodeismoreandmore,andtheuserismoreandmore,especiallyinthebusinessmeteorologicalmodel.Thisputsforwardhigherrequirementsforhighperformancecomputermanagementandbusinessapplicationmanagement.Inordertoprovidebettercomputingresourc
5、esandsupportservicesasastartingpoint,itintroducesthetechnicalmethodsofhighperformancecomputeroperationmanagement,usersandmanagement.Ithelpstoreducethecostofmanagementandmaintenance. Keywords:highperformancecomputer;systemmanagement;resource;applicaton
6、;model 1概述 高性能计算机是气象业务及科研应用的重要的基础平台,高性能计算机技术在气象海量资料处理、科学计算、产品应用等方面发挥着重要的支撑作用。东北区域气象中心目前拥有IBMCluster1600、IBMIBMFlexSystemP4606Cluster系统,计算能力迅速增强,依托于该高性能计算平台,东北区域中尺度数值预报系统,台风模式HWRF、东北区域空气质量模式预报系统CMAQ,天气数值模式预报检验等业务及科研应用顺利开展。业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精
7、度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。高性能计算机系统管理者必须采取一定的技术手段确保系统稳定运行,资源有效利用。 2计算机运行监视 高性能计算机采取集群架构,由一组相互独立的计算机利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理。集群内包括小型机、服务器、存储、网络等设备近百台,每天到机房检查硬件报警信息是硬件检查的常用方法。然而,在例行检查之后,无法预测硬件下一次报警的时间,也很难保证硬件总是不出故障。通过一些集群管理命令和
8、单机操作系统命令,可以读取到一些有用的信息,通过分析这些信息判断出硬盘、内存、cpu等部件以及各个节点的运行状态,通过运行监视平台实时展示,在故障时通过文字的颜色和声音等方式向值班人员报告系统出现的一些异常情况。 3高性能计算机性能监视系统 在IBMCluster1600高性能计算系统上,采用Ganglia分布式监控技术建立了高性能计算机性能监视系统[1]。该系统采用B/S架构,实现了对集群和各个计算节点的CPU利用率、网络流量、负载的运行情况、内存情况等性能指标
此文档下载收益归作者所有