大数据应用的自动化运维之路柯旻

大数据应用的自动化运维之路柯旻

ID:37378553

大小:1.84 MB

页数:24页

时间:2019-05-22

大数据应用的自动化运维之路柯旻_第1页
大数据应用的自动化运维之路柯旻_第2页
大数据应用的自动化运维之路柯旻_第3页
大数据应用的自动化运维之路柯旻_第4页
大数据应用的自动化运维之路柯旻_第5页
资源描述:

《大数据应用的自动化运维之路柯旻》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据应用的自动化运维之路柯旻---花名大舞,阿里集团技术保障部-云计算运维-高级技术专家,2007年加入阿里,目前负责阿里Hadoop(云梯)/odps(5k)集群以及内部OTS/HBase系统的运维工作。专注于大规模海量数据分布式计算运维工作。1999-2005开始接触互联网2005-2007网易系统运维2007-2009alibaba系统运维2009至今大数据,云计算运维旺旺:大舞Email:dawu@taobao.comhttp://weibo.com/u/1804480064@大舞-ukl分享内容大数据/云运维

2、面临的变化挑战大数据/云运维要操心哪些事自动化运维&devops性能瓶颈分析数据化运维大数据云环境下新的运维挑战大数据/云运维面临的变化挑战规模快速膨胀跨机房,跨地域需求&成本数据安全灵活性Hadoop集群服务器增长2009.42010.32010.72012.12012.102013.72014?大数据/云运维要操心哪些事自动化运维&devops1.基础环境标准化2.硬件上线自动化检查3.自动化一站式portal4.自动化报表统计可视化5.硬件定制6.devops硬件上线前自动化检查硬件上线前监测(fw版本,

3、bios配置,驱动版本以及性能情况)8自动化一站式portal报表统计可视化硬件定制AliRack正面侧视图AliRack正面冷通道视图服务器部署效率提升10倍,总体拥有成本(TCO)降低5%成本&效率Devops集群自动化故障监测和处理系统开发—华佗目前已经自动化处理:1.系统盘和飞天工作盘容量满。2.系统盘sda损坏3.服务器load过高4.服务器宕机5.磁盘坏盘预测6.交换机故障7.chunksrevershutdown8.机房间网络异常9.内存条损坏,内存总量减少10.服务器硬件检查自动报修性能瓶颈分析•常见的性能瓶颈–C

4、pu(线程互锁,上下文切换,超线程,不同内核版本对系统调用的差异)–内存(DDR3,三通道,NUMA)–网络(网络通信库,交换机吞吐,万兆网的普及,吞吐中断)–压缩技术–磁盘IO(IO优化,SSD,FIO及驱动)–大数据传输与分发–分布式与并发调度–实时连续数据流计算与存储–……….•应对思路–Profiling,systemtapprobe,perf等辅助工具–有效缓存–架构优化与重组–新技术和设备的合理使用–瓶颈分析是控制资源非常有意义的事情,往往能够带来突破数据化运维数据才是唯一真实可靠的!•自动高效的收集数据•对数据敏感•

5、借助平台的力量•提高运维效率,预防故障发生•数据化分析做出更合理的判断服务器选型18磁盘文件系统•EXT3文件系统,当时的数据量,做一次fsck需要至少半个小时•每次修复需要停掉一台节点的应用H云计算平台的133天中:625次文件系统的fsck。平均每天需进行4.7次的修复。保守按耗费半小时来计算造成每天有141分钟单台不可用时间有数据就有底气:•应用程序改造能允许在线卸载目录1141分钟4•在线挂载目录后应用程序能够识别downtime0•选用更可靠的EXT4文件系统减少恢复时间19热点分析大数据云环境下新的运维挑战1.各种硬件

6、配置情况一直在发生变化2.按需分配,削峰填谷3.如何清晰的描述物理&虚拟之间的关系4.海量的运维数据如何及时高效的找到我们需要的5.业务急剧膨胀,某个应用突然新上线大规模作业?6.大压力情况下出现边界效应,小概率事件触发成为常态7.单机房已经无法满足我们需求,跨机房,跨地域集群该如何运维?8.成本,成本,如何控制成本…………..21加入我们欢迎加入阿里巴巴技术保障大数据云计算运维我们还在路上,一起改变世界!!!Q&A@InfoQinfoqchina

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。