欢迎来到天天文库
浏览记录
ID:32885810
大小:1.41 MB
页数:23页
时间:2019-02-17
《自动化与数据化运维》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、自动化与数据化运维-从硬盘开始2009-8-22刘毅1大数据时代“大数据”时代的变化96%•服务器硬件架构•存储架构•人员配比3/Day•带电操作2运维挑战运维面临诸多挑战–以硬盘为例:3运维自劢化一•文件系统易进入只读模式•各种修复流程复杂,操作时间长•基数大、无时无刻存在繁琐复杂,劳动密集4运维自劢化一一、文件系统、坏盘Touch数据硬盘盘符确关键字收集目录认5运维自劢化一修复自动化:•报警多,处理繁琐,耗时长•每次修复需要停掉一台节点的应用启动应自动检用查挂载目发现只录读文件系停止应统修复用卸载目6录运维自劢
2、化二•紧急疑难问题•影响生产稳定危险系数高,紧急救火7运维自劢化二二、慢盘、僵尸盘•事后分析问题场景•不断的补充新的场景8运维自劢化二二、慢盘、僵尸盘自动化解决:找到符合现象的磁盘修改/etc/fstab能卸载即卸载,不能卸载重启服务器(带外)9运维自劢化三•足够多的样本•拼概率、拼人品•事后补救可能于事无补防患于未然10运维自劢化三三、提前预判硬盘健康•SMART&SMARTMONTOOLS11运维自劢化三三、提前预判硬盘健康•无效的Thresholds值•规则依赖单一参数改进优化•参数联劢•增加其他预判纬度12
3、运维自劢化三三、提前预判硬盘健康13运维自劢化三三、预警与平台相配合:低分值应用下线维修分值符合应用上线14运维自劢化四四、与内核团队合作15数据化分析自主监控自动处理数据分析16数据化分析一、日志数据分析:云计算平台的133天中:•625次文件系统的fsck。•平均每天需进行4.7次的修复。•保守按耗费半小时来计算,造成每天有141分钟额外单台不可用时间(需要停掉应用再卸载目录)应用更加智能:1•应用程序能允许在线卸载目录141分钟4downtime•在线挂载目录后应用程序能够识别0•选用更可靠的EXT4文件系统
4、减少恢复时间17数据化分析二、运维数据分析:故障率0.350.30.250.20.15故障率0.10.0500.5yrs1yrs1.5yrs3yrs改进现有运维方式:•减少扩容带来的影响•感觉有了数据的支撑•提高运维效率18数据化分析三、海量运维数据挖掘初探:神农简单日志原始数据有序arffWEKA分类(贴标签)19数据化分析三、海量运维数据挖掘初探:•验证规则•新的发现20总结•自劢高效的收集数据•对数据敏感、借劣平台的力量•提高运维自劢化的效率,预防故障发生21感谢感谢:•云计算PE团队22谢谢23
此文档下载收益归作者所有