欢迎来到天天文库
浏览记录
ID:78286919
大小:2.21 MB
页数:40页
时间:2022-02-01
《唯品会运维架构和流程改造之路》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、唯品会运维架构和流程改造之路自我介绍黎毅敏十多年一线运维经验长期关注高可用性、高可靠性、可扩展性架构和方案2021年4月加入唯品会,负责网站系统运维微博:@Yimin_Li分享主题基础架构优化案例运维流程优化案例运维自动化现状关于DEV和OPS图片系统优化案例大数据对运维的帮助基础架构优化案例背景公司业务发展快技术团队年轻网络基础架构薄弱优化前面临的挑战交换机之间的流量经常跑满无法接入更多的服务器和机柜内网经常丢包交换机之间网线经常降速运维人员经常踩坑非常多的单点故障点对流量要求高的新业务无法上线原有IDC网络架构缺点千兆骨干无冗余无扩展性内外网结构,两套网络,成本高对运维不友好
2、安全性差服务器10.100.10.10.100.11.重新设计3个月2位网络工程师新的IDC网络结构特点高性能(10G骨干,核心交换机Tb级转发能力)冗余性可扩展性无生成树模块化合理收敛比内外网融合,运维友好安全性加强服务器10.100..Bonding迁移项目全部4个数据中心大数据平台数据中心迁移持续半年人力投入巨大新架构效果消除了网络单点故障点应用性能提高服务器带宽及可靠性提高可快速扩展网络整体容量提高10倍+好的架构还可以避免运维流程优化案例流程优化基于ITIL监控中心负责体系化变更管理事件管理问题管理目标是团队像而不是变更管理减少变更对生产系统的影响减少故障定位和发现的时
3、间有助于跨团队和大团队的沟通确保对生产环境的变更都经过审查和审批避免过度审批蝴蝶效应变更流程变更系统事件管理监控中心负责多个监控系统(Zabbix,Telescope)统一告警平台标准化故障处理流程会议问题管理监控中心驱动重大故障反复发生的故障定位原因解决方案运维自动化现状运维自动化进展情况还处于初级阶段服务器安装Cobbler配置管理采用Puppet框架在QA、大数据、DBA、移动运维团队已经用Puppet实现服务器快速部署和系统配置标准化对还没有接入配置管理系统的服务器从流程上要求把配置和运维操作进行了规范化和标准化关于DEV和OPS很多人认为开发和运维的关系但我们认为所以对
4、外互相补位对内各自发挥所长(运维提需求,开发设计和实现)图片系统优化案例图片系统优化前情况1亿+图片(不包含移动图片)35T存储空间(3份拷贝)优化前高峰时间平均响应时间几十秒(优化前架构)LVS->Nginx(Cache)->MooseFSCDN厂商无法完全预热移动终端的所有URL图片系统优化手段LVS->Haproxy->Nginx(Cache)->MooseFSHaproxyURI哈希负载均衡MFSmasterserver扩内存MFSchunkserver扩容并采用全裸盘双重预热机制试水Flashcache优化后降到几十ms到几百ms之间图片系统改造方向对象存储SWIFT或
5、自行开发?大数据对运维的帮助日志平台Telescope/Logview具体架构参见Qcon上海2021姚仁捷-唯品会日志平台建设监控中心和运维最依赖的监控工具之一各个系统的4XX,5XX及访问量,平均响应时间迅速发现生产系统的隐蔽问题变更和代码发布后的校验手段之一基于响应时间的优化优化前后响应时间改变情况响应时间和系统容量密切相关大促前的优化方向大促期间的监控手段大数据对运维的一些其他帮助CDN服务质量监控移动图片各分辨率访问比例统计(预热)大数据对运维的一些其他帮助CDN服务质量监控移动图片各分辨率访问比例统计(预热)总结设计良好的基础架构可以有效提高网站容量、可靠性和可维护性
6、水平运维流程可以有效提高网站可用性和提供团队效率运维和开发是互补、相互扶持的关系图片系统的优化经验大数据对提高运维水平有很大帮助招聘中。。。高级/资深基础运维工程师高级/资深应用运维工程师高级/资深运维工具开发基础架构软件开发工程师运维架构师高级/资深网络工程师基础运维经理/高级运维经理地点:广州或上海(zhaopin@vipshop)Q&AThankYou!
此文档下载收益归作者所有