大规模集群运维自动化探索和实践

大规模集群运维自动化探索和实践

ID:6076526

大小:33.00 KB

页数:10页

时间:2018-01-02

大规模集群运维自动化探索和实践_第1页
大规模集群运维自动化探索和实践_第2页
大规模集群运维自动化探索和实践_第3页
大规模集群运维自动化探索和实践_第4页
大规模集群运维自动化探索和实践_第5页
资源描述:

《大规模集群运维自动化探索和实践》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大规模集群运维自动化探索和实践  【摘要】本文从东方公司研究院的IT现状和未来设备管理入手,对大规模集群自动化运维模式和工具进行分析,提出IT运维自动化概念。通过目前存在的问题,分析运维自动化的目标和方法,介绍建立运维自动化的步骤;以图解方式介绍自动化安装、自动化配置、自动化监控等使用情况,并据此说明未来大规模集群运维自动化的远景规划。【关键词】IT运维;运维自动化;自动化安装;自动化配置;自动化监控ExplorationandPracticeofOperationandMaintenanceAutomationofLarge-scaleClusterMao

2、Cheng-guoZhangWei-huaZhangJin-duoMaXun-feiShiZheFangKai(BGP,CNPCHebeiZhuozhou072750)【Abstract】ThispaperdiscussedtheITstatusandthefuturemanagementintheGRIBGP,analyzedthemodesandtoolsoftheoperationandmaintenanceautomationoflarge-scalecluster,putforwardtheconceptoftheIToperationandmai

3、ntenanceautomation.Byanalyzingtheexistingproblems,thegoalsandmethodsofoperationandmaintenance10automation,thispaperintroducedthestepsofestablishingtheoperationandmaintenanceautomation.Byusingthegraphicalway,thispaperintroducedtheautomatedinstallation,theautomatedconfigurationandthe

4、automatedmonitoring,andthenexplainedthefuturevisionoftheoperationandmaintenanceautomationoflarge-scalecluster.【Keywords】itoperationandmaintenance;operationandmaintenanceautomation;automationinstallation;automationconfiguration;automationmonitoring1前言IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把

5、过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的更高层次,也是未来的发展趋势与方向。2IT运维现状介绍10目前许多企业的计算机运维已经实现从人工运维到自动化管理,但我们的IT运维管理还只是处在“半自动化”状态。这种运维模式仍然是在用户使用计算机设备的过程中发现故障,之后通知运维人员,然后再由运维人员采取相应的补救措施。这种传统的、被动的、孤立的、半自动式的运维管理模式经常让运维部门疲惫不堪,主要表现在三个方面。2.1低效率的手动运维模式在计算机运维过程中,只有当事件已经发生并已

6、造成业务影响时,才能发现和着手处理,这种被动“救火”不但使运维人员终日忙碌,也使计算机运维本身质量难以提高,导致生产部门对计算机运维的服务不满意。目前运维人员日常大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使运维人员的工作经常处于被动“救火”状态,不但事倍功半而且常会出现恶性连锁反应。2.2缺乏高效的运维机制目前我们在运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,导致问题出现后很难快速、准确地找到根本原因,无法及时找到人员进行修复和处理,或者是在问题找到后缺乏流程化

7、的故障处理机制,在处理问题时不但欠缺规范化的解决方案,同时也缺乏全面的跟踪记录。2.3缺乏高效的运维工具10随着生产业务的不断发展,我们的生产系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让运维人员难以从容应对,即使加班加点地维护、部署、管理,也经常会因设备故障而导致业务中断,严重影响企业的正常运转。出现这些问题的部分原因是企业缺乏事件监控和诊断等运维工具,因为如果没有高效的工具支持,就很难让故障事件得到主动、快速处理。3运维自动化的迫切需求尽管计算机运维管理的技术在不断进步,但实际上很多运维人员并没有从中真正解脱出来,原因在于目前的技术虽然能

8、够获取计算机设备、服务器、网络流量,甚至数据库的警告

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。