欢迎来到天天文库
浏览记录
ID:28109027
大小:24.50 KB
页数:3页
时间:2018-12-08
《盘点那些年云计算厂商出过的十大故障.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、盘点那些年云计算厂商出过的十大故障 伴随着云计算的发展,云计算技术、应急响应机制都日趋成熟和完善。多数情况,云计算平台都能持续、稳定的正常运行。 不过,因天气或者其他原因,全球各地大大小小的云计算厂商过去几年,确实发生过众多大大小小的“著名”故障。 1、2009年6月,因分布式拒绝服务攻击(DDoS),亚马逊EC2服务宕机5小时。 2、2009年6月,Rackspace因供电设备跳闸,备份发电机失效,导致服务器大面积停机。 3、2010年5月,一周内,亚马逊弗吉尼亚数据中心上演了三次不同的宕机。第一次是不间断电源(UPS)转换到备份电源时失败,一整个机架的服务器停机
2、。第二次发生在四天之后,因一个电源分配箱短路,导致服务中断8小时。两天后,一辆汽车撞击了电线杆子,切断了数据中心的电源,导致半小时宕机。 4、2011年4月22日,由于技术原因导致亚马逊在美国东部地区的许多服务中断。这个故障持续了大约四天时间,被认为是亚马逊史上最严重的云计算安全事件。 5、2012年2月28日,由于“闰年bug”导致微软Azure在全球范围内大面积服务中断,中断时间超过24小时。 6、2014年8月18日,在Windows8.01安全补丁例行发布后,Azure云因技术问题引发部分用户中断服务长达5个小时。微软报告称,Azure服务例如虚拟机网站、自动化
3、、备份和站点恢复都在多个地区出现中断。 7、2014年11月,Azure多个主要Region的存储服务出现问题,引发11个小时的故障。该故障影响了19种Azure服务,涉及12个Region,当时似乎只有澳大利亚数据中心幸免于难。 8、2014年11月2日中午12点,腾讯云在上海、广州两地的服务器出现故障,导致使用该服务器的用户出现无法正常登录、连接不稳定等现象。故障持续约两小时。 9、2015年6月6日,青云的服务商睿江科技机房因雷暴天气引发电力故障,导致青云广东1区全部硬件设备意外关机重启,青云官网及控制台无法访问、部署于GD1的用户业务不可用。 10、2016年
4、7月6日,上午10点22分,阿里云华北2地域可用区A由于网络设备出现异常,导致部分产品访问受到影响。故障持续约1小时。 结束语
5、写给所有云计算用户的话 当企业把IT基础设施托付给云服务商的时候,千万别忘了你才是这些系统的主人。 美国知名电脑周刊杂志eWeek资深科技记者MikeElgan曾表示:“云计算不是万灵丹,我们不过是租别人的计算机而已。因此自己数据中心可能出现的问题就算是转向了云计算也依然存在”,他建议“企业有自己的替代方案很重要”。 Netflix的技术人员认为,不论在何种情况下,每个系统必须靠自己存活。所以,他们在设计系统时考虑了其所依赖的其他系统的故障并
6、且能够容忍故障。 从两地三中心到同城双活到异地多活,金融机构、政府、大中型企业一直秉持“不把鸡蛋放在一个篮子里”的思路,在灾备的路上越走越高精尖。 但是高精尖的背后是高昂的成本,对中小企业而言有些负担过重。事实上,在云计算上也有对应的服务:地域(Region)和可用区(AZ:AvailabeZone)。所以对于自己的云端业务,既可以分散到多个可用区,也分散到多个地域。 除此之外,互联网界对于系统如何达到高可用是有一些基本共识的,比如:大系统小做,服务拆分;并发控制,服务隔离;灰度发布;全方位监控报警;核心服务,平滑降级。这些最佳实践,如果很好地落实,对于提高系统可用性非
7、常有帮助。
此文档下载收益归作者所有