关于系统运维监控规范的几点建议和思考

关于系统运维监控规范的几点建议和思考

ID:41665700

大小:57.01 KB

页数:4页

时间:2019-08-29

关于系统运维监控规范的几点建议和思考_第1页
关于系统运维监控规范的几点建议和思考_第2页
关于系统运维监控规范的几点建议和思考_第3页
关于系统运维监控规范的几点建议和思考_第4页
资源描述:

《关于系统运维监控规范的几点建议和思考》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、关于系统运维监控规范的几点建议和思考随着各行业信息化建设的迅速发展,网络覆盖面也在不断扩大、应用系统广泛应用、软驶件数虽大幅增加。为了更好、更有效的保障系统上线示的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须冇一个口J靠和口J持续的监测机制,统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识,就是了解服务器有可能出现哪些严重的问题,出现这些问题后该如何去迅速处理。比如数据库的数据丢失,L1志容量过大,被黑客入侵等等。目前,国内多数行业已经为部分信息化资源建立了监控和运维管理系统,但

2、运行维护系统屮各种网络、系统、终端监控及安全工具都是面向设备的单方面分散管理,这无形屮将本应一体化的信息系统安全运行工作进行了拆分,氏接导致单一问题出现后多处报警、多方排查,浪费了大量人力,故障处理效率低下。由此对信息化资源的统筹咨询规划,应从技术和管理两方面入手,将冃前信息化应用领域屮所涉及的环境、设施、设备、软件、数据库等资源纳入统一的监控平台屮来,并通过消除管理对象之间的差别、数据采集手段的差别、管理软件的差别,对各种不同数据来源实现统一管理、统一规范、统一•处理、统一展现、统一用户登录、统一权限控制实现一个贯穿整个信息化系统全过程、实现规范化

3、、口动化、智能化的信息化资源大运维的监控管理。平台的设计要求博达软件认为通过建设一个满足“集屮监控、集屮维护、统一管理、自动处理”的现代运营维护模式所需耍的、面向业务的人运维管理体系,实现对信息化应川屮各类资源的统一监控和管理,达到対整体安全运行状况的掌控及快速定位;整合笫三方监控系统,提供覆盖网络、系统及应用服务等全方位监控的统一展现页面;汇总、压缩和关联各种设备或服务的告警信息,达到统一监控和展现的冃的;综合评判告警信息形成的运维事件,实现事件流程的智能分析与事件全生命周期的管理。同时,将产生的事件形成完整的流程及记录,为信息化运维人员提供有价值

4、的、准确的可用性信息。在大运维平台上实现対系统运行状态的集中管理(主要包含主机设备、网络设备、存储设备、备份设备、数据库、屮间件、操作系统、应用软件、机房动力环境等),具体体现在:1、从网络内部进行集中网络性能分析,实现网络运行质量的量化管理;2、实现对业务了系统应用软件关键点的监视和保障,确保系统的运行质竝;3、通过对业务子系统中各类告警信息的分析,进行故障的快速定位和告警功能;4、建立运维管理知识席系统,实现知识交流与共享;5、掌握业务了系统的资源配置信息;6、采用高扩展性的分布式构架,便于对人型网络结构的处理。一、上线之前的准备工作1•首先是备

5、份,做好定时备份策略,备份所有你认为重要的数据,并且定期检查你的备份是否冇效、全面;2.口志轮换,无论你想用哪种轮换方式,控制口志增长避免驱动器已满是你的1=1的;3.做一定的安全措施,如防火墙iptables的访问控制,用dcnyhosts防I上黑客远程暴力破解;d.mysql远程登录权限等等;5.最后就是服务器、网元设备的监控。二、监控策略1.定义告警优先级策略一般的监控到的结果是成功或者失败,如Ping不通、访问网页出错、连接不到Socket,发生时这些称Z为故障,故障是最优先的告警。除此Z外,还能监控到返回的延时、內容等,如Ping返回的延时

6、、访问网页的时间、访问网页取到的内容等。利川返回的结果可以自定义告警条件,如Ping监控的返回延时一般是10-30ms之间,当延时大于100ms时候,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检杳是否流量过人或者服务器CPU太高等问题。2.定义告警信息内容标准当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器TP、监控的线路、监控的服务错谋级别、出错信息、发生时间等。预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义,短信内容最多是70个字符,要在70个字符完全知道故障内容

7、比较怵I难,更需要预先定义内容规范。如:“视频直播服务器10.0.211.65在2012-10-1813:00电信线路监控第到1次失败”,清晰明了的知道故障信息。3.通过邮件接收汇总报表每天收到一封网站服务器监控的汇总报农邮件,花个两三分钟就人致了解网站和服务器状态。1.集中监控和分布式监控相结合主动(集中)监控虽然能不需耍安装代码和程序,非常安全和方便,但缺少很多细致的监控内容,如无法获取硬盘大小、CPU的使用率、网络的流最等,这些监控内容非常冇用,如CPU太高表示有网站或者程序出问题,流量太高表示可能被攻击等。被动(分布式)监控常用的是SNMP(

8、简单网络管理协议),通过SNMP能监控到人部分你感兴趣的内容。大部分操作系统支持SNMP,开通管理非常方便,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。