欢迎来到天天文库
浏览记录
ID:21692859
大小:30.36 KB
页数:22页
时间:2018-10-23
《阿里巴巴运维体系变迁史》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、^~阿里巴巴运维体系变迁史作者丨毕玄编辑|谢然每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点,回顾了阿里巴巴从工具化到自动化的过程,接着分享了阿里巴巴在智能化领域的探索路线,最后总结了未来运维团队所面临的巨大挑战,特别是运维智能化落地,有效性提升,以及最终效率提升及成本节约上带来的挑战。注:本文首发自InfoQ运维公众号,高效开发运维,ID:DevOpsGeek,推荐关注。随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。Gartner的报告宣称,到2020年,将近50%的
2、企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。尽管AIOps还是一个新名词,但它无疑代表了运维未来的一种趋势。智能化运维的终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。大约两年前,智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、机器学习等技术的兴起和逐渐^~阿里巴巴运维体系变迁史作者丨毕玄编辑|谢然每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的
3、业务里承担的责任为切入点,回顾了阿里巴巴从工具化到自动化的过程,接着分享了阿里巴巴在智能化领域的探索路线,最后总结了未来运维团队所面临的巨大挑战,特别是运维智能化落地,有效性提升,以及最终效率提升及成本节约上带来的挑战。注:本文首发自InfoQ运维公众号,高效开发运维,ID:DevOpsGeek,推荐关注。随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。尽管AIOps还是一个新名词,但它无疑代表了运维未来的一种趋势。智能化运维的
4、终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。大约两年前,智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、机器学习等技术的兴起和逐渐^~成熟,运维需求也逐渐向自动化和智能化过渡。从最初级运维发展到现在智能化运维,大致经历了四个阶段:脚本时代——工具时代——自动化时代——智能化时代。目前业界真正的智能化运维的落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大公司来说,更是尤为重要。以下整理
5、自2017上海CNUTCon全球运维技术大会上,阿里巴巴研发效能团队负责人,阿里研究员毕玄的演讲《智能时代的新运维》。1阿里的运维体系承载着怎样的责任?阿里的运维体系介绍阿里的运维团队,主要覆盖五个层面。一.资源的规划与支付是运维的基石整个运维团队需要负责资源的规划、资源的交付。Quota管理:比如我们会跟业务团队做一些预算的管理,对于每个业务团队首先需要有预算。只要你有预算,运维团队一定会把资源交给你,没有预算一切免谈。规划:比如阿里每年的双十一交易,业务团队要给出下一年的交易额将做到多少,至于背后需要增加多少的机器量,业务团队根本不关心。所以需要运维团队来做从业务需求到
6、资源的转化和规划,这对于公司来讲非常重要,因为意味着最终我在基础设施上要投多少钱,还有节奏的控制。采购:当规模大了以后,怎么样合理规划资源的数量和交付节奏是非常重要的,比如5月份采购这批机器^~和6月份采购这批机器,是完全不同的概念。还需要资源的采购,比如SSD采购紧张,供应量不够。通常大公司会有更多的渠道获得更好的供应量,小公司就会很困难。怎么做好供应链控制是非常重要的。资源调度:对于资源团队来讲,调度也很重要,我们交出去的机器是怎么样的交法,怎么保证可用性、稳定性,Bootstrap等,每个业务都有自己的规划,按照业务需求怎么把整个业务环境全部交给业务方。阿里目前就遇到
7、了很大的挑战,比如在国际化的扩张上,我们可能这个月需要在这里建个点,下个月需要在另一个地方建个点,怎么快速的完成整个资源,不仅仅是机器资源的交付,还有软件资源的交付,是非常重要的。我们现在在扩展东南亚的业务,怎么样在东南亚快速的完成整个软件资源的交付,对于我们的竞争是非常重要的。二.变更是运维不可避开的坑对于运维团队来讲,变更也是经常要做的部分,变更信息的收拢,做应用层面的变更,基础网络的IDC等等。三.监控预测潜在的故障监控对于阿里来讲主要分为基础、业务、链路,在监控的基础上要去做一些报警等。四.稳定性是不少企业
此文档下载收益归作者所有