欢迎来到天天文库
浏览记录
ID:47564252
大小:49.19 KB
页数:8页
时间:2019-09-19
《再流弊的技术,也抵不过一次事故兼谈技术管理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、再流弊的技术,也抵不过一次事故:兼谈技术管理高效运维最佳实践072015-09-02萧IB国高效运维总击蔭牢,轻柩其注木文是互联网专栏《高效运维最佳实践》的第07篇文字,由萧B国原创并授权“高效运维”公众号独家首发。木文未经作者授权,谢绝转载。欢迎关注“高效运维”公众号,以免费参加「运维讲坛」每月一次的线下交流活动;并抢先赏阅干货满满的各种原创文章(详见文末)。作者介绍萧田国触控科技运维总监,高效运维技术社区创始人,互联网专栏《高效运维最佳实践》作者。“高效运维”和老王(王津银)提倡的“精益运维”、智锦提倡的”白盒运维”并称为运维三大流派。引言今年已经连续出现了
2、几起大的故障。究其根本原因,都是不应该的人为事故。木文从这些大故障说起,主要谈及运维管理相关的一些话题。木文的主耍内容包括:1.不太平的互联网2.为什么这么多人为事故?1•为什么运维更容易发生事故?2.规范这么全,为什么还有事故?3.都自动化了,为什么还有事故?4.灰度这么好,为什么述有事故?1.怎么规避人为事故?1•选择合适的人2培养安全意识3.让专业变成一种习惯好吧,我们正式开始。不太平的互联网近期获悉的一些大故障,不仅来自于携程、阿里云,还有一些影响范围不是很大,但同样非常不应该的人为事故。901阿里云故障阿里云称因云盾升级触发bug,导致部分服务器的少量
3、文件被系统误隔离。其己第一时间启动系统回滚,被谋隔离的文件正在陆续恢复。部分阿里云用户表示很受伤。很多微信群朋友纷纷表示也已中招。从波及面及技术层分析来看(详见下文),应该是人为事故为主。528携程故障5月底的这次携程故障,在17小时后才恢复业务。官方更是直言为“员工错误操作导致蔦其他“令人发指“的故障包括但不限于:1.某公司技术人员大白天的给公司计费数据库服务器更换电源…2•某银行总行大型机,关键线路接反了…3.某银行关键交易系统,更新版木时SQL脚木update语句没写where条件,然后所有网点信息都被重置…根据笔者十多年的互联网从业经验,重大故障,究其根
4、源,至少60%都是低级人为事故。真正因为复杂系统问题导致的严重故障,非常之少。为什么这么多人为事故?互联网发展至今,还没脱离草莽时代。技术上,从最开始的小米加步枪,到现在逐渐口助化、半口动化,或者利用开源产品修修补补形成口己的系统。如果说技术上的发展尚可陈词、有些亮点,那么对人的管理和重视程度,就更加落后得太多。可以佐证的是,微信技术社区里头,讨论技术热点的文章非常Z受追捧;但技术管理类的文章,往往非常被冷落。究其原因,还是在于广大互联网技术人员的“手艺人情结”。从我所在的运维行业来看,尤为突出:大家都是从Linux、Shell开始学起,非常享受那种敲几行命令一
5、回车,自动部署多台服务器的快感及成就感。并误以为这就是自己的全部。技术人员梦想着身怀“绝技”,对Linux系统的某些压箱底活儿或对某项编程技术的独门秘籍,自此笑傲人生,并“不为五斗米折腰”,如认为公司或领导有让自己不爽的地方,即刻”潇洒”遁去。虽然,这往往验证了一句话“最有才能的人,往往是最无效的”。技术人员不愿受束缚,更多非常相信自己,觉得我的技术杠杠的。为什么需要别人来检查我的工作?我就是完美。技术负责人往往工作年龄更长,可能经历过更野蛮生长的时代。而且很多人潜意识地认为,技术可以解决一切问题,但问题是:当系统越来越大、自动化和智能化程度越来越高,开飞机的人
6、,水平跟不上,怎么办?机器再强大,也需要人來操作。你说是不?为什么运维更容易发生事故?其实相比运维,开发人员还是幸福的。开发更多关注功能、怎么快速交付项冃需求即可。程序右Bug?还好啦,后面还有测试在兜底。甚至,Bug多些也无妨,还能算做测试的绩效。在这个时候,开发是操作人,测试实际上是检查人,两个岗位互补:这就是为什么飞机驾驶舱会有两名飞行员的原因,即使副驾驶员看上去无所事事的样子。但,关键时候可是能救命的。运维就没这么幸运了。运维往往苦逼地冲在第一线,手上掌握着的都是生产环境。而口一般情况下,文责自负,基木上没有谁来检查运维的工作。也少有人意识到这是个严重问
7、题。规范这么全,为什么还有事故?规范是用来“制约”人的,技术是用来“简化”人的。But,系统再智能也得人来操作,不是么?对于人本身,我们究竟做了哪些事情呢?这是值得扪心自问的。规范再多,人也可以束之高阁。所以管理者一定不能觉得规范制度完善了,就已万事大吉。恰恰相反,放松警惕,放松对人的管理,放松贯彻执行,更大的悲剧可能将要来临。规范制度不是技术管理的全部,规范可以理解为最低标准,用来杜绝不专业的人去会犯毁灭性错误。规范更多是“术”,而不是“道”。虽然规范想体现“道”,但毕竟,“指向刀亮的手不是月亮”。重视选人、重视培养人的专业意识,才是王道。都自动化了,为什么还
8、有事故?近期这几起严重故
此文档下载收益归作者所有