ZD至顶网软件频道消息:随着企业将越来越多的关键工作负载迁移到生产云环境之中,供应商服务仅仅几分钟的宕机都可能会极大地影响企业的利润,损害企业与客户的关系,并导致IT管理员处境艰难。
但是,虽然全球经济越来越多地依赖于云服务供应商,特别是那些超大规模的供应商,保障服务正常运行时间以及维护服务的能力,服务中断仍然很常见。
导致故障的原因从停电到错误软件更新,从服务器过载到数据库错误,不一而足。更多的时候,我们永远不会知道服务故障的真正性质和影响范围。
下面是2016年上半年占据了新闻头条的一些云服务故障事件。
Verizon,1月14日
1月14日,Verizon数据中心的一次停电影响了JetBlue Airways的运营,造成了很多航班的延迟,让大量的乘客争先恐后地重新预订机票。
Verizon并没有说是哪一个数据中心遭遇了停电。
总部位于纽约的JetBlue在一篇博客文章中写道,由于Verizon的一个数据中心的停电,JetBlue遭遇了网络问题,影响到了包括jetblue.com、移动应用程序、免费电话、登机及机场柜台/门系统在内的客户支持系统。
Twitter,1月19日
1月19日上午,社交信息巨头Twitter在上载了一些错误代码之后,出现了全球性的问题。
内部软件更新导致网络和移动应用程序出现故障,故障持续了非常长的时间,最初报告的消息是在太平洋时间上午2点之前,而大约八个小时之后,Twitter确认系统才进行了备份,并且开始运行。
对于很多Twitter用户来说,这八个小时简直长如永恒。
Microsoft Office 365,1月18日
一些Office 365用户从1月18日开始,不得不和自己基于云的电子邮件账户分离了好几天。
微软将故障归咎于一次错误的软件更新,但是其初次修复的尝试并没有解决问题,在最初的故障出现五天之后,第二次电子邮件故障又爆发了,这一次激怒了很多用户。
云生产力套件的电子邮件服务故障在某些情况下持续的时间超过了一周。微软承认,尽管不是所有的Office 365用户都遇到了服务中断的问题,但是这个问题还是影响了一大批用户。
微软最终报告称其工程师确定了几个处理电子邮件路由和过滤的基础架构组件由于资源使用过度出现了退化,这份声明在该故障首次出现一个多星期之后才姗姗来迟。
Microsoft Office 365,2月22日
微软在欧洲的一些客户在2月22日遇到了用手机无法访问电子邮件的问题,或者在尝试通过网络门户登录Office 365服务的时候出现了延迟的问题,在几个小时的时间里,该问题间歇性地影响了用户使用。
微软将这个问题归咎于对云资源的需求过大。与之类似,Office 365在去年12月的宕机影响了欧洲用户使用电子邮件和其他服务,但是那一次故障的影响面更广。
Salesforce,3月3日
Salesforce一些欧洲客户不得不应对CRM服务中断10小时的问题,这次故障是由于该大陆上一个实例中出现了一个存储问题。
即使重新连接上了存储层,仍然有一些功能无法正常运行,Salesforce继续报告其EU2实例的性能也出现了下降。
Symantec Cloud,4月11日
Symantec的一个门户让客户能够管理他们基于云的安全服务,该服务从东部时间4月11日上午6点开始中断了大约24小时。
在工程师们忙于恢复并配置让Symantec.cloud重新联网所必需的数据库的一整天时间里,这家安全厂商的状态页面上如雨后春笋一般冒出了很多对用户的道歉。
服务中断让Symantec的客户无法管理一些电子邮件和网络安全服务,但是Symantec坚持表示那些保护层仍然在发挥作用,保障自身决不受到损害。
Google Cloud Platform,4月11日
Google Cloud Platform在4月11日傍晚出现了大约18分钟的中断,影响了其所有地区的Compute Engine实例和VPN服务。
谷歌为受到影响的客户补偿了10%的Google Compute Engine月服务费,以及25%的VPN月服务费。
Salesforce,5月10日
5月10日,Salesforce.com的一个故障持续了四个小时,影响了数据客户进入他们的CRM,Salesforce花了几天的时间才完成补救工作。
虽然首席执行官Marc Benioff在Twitter上亲自对一位用户道歉,Salesforce还是拒绝透露这次故障波及的范围有多广,或者哪些区域或服务受到了此次和NA14——Salesforce在北美地区45个云实例之一——有关的数据库故障的影响。
Salesforce的系统状态网页表示性能下降是从东部时间上午8:41分开始的,在不到一个小时之后,也就是上午9:31分出现了“服务中断。”
苹果公司,6月2日
苹果公司的云在6月2日出现了一次大面积的服务中断,让苹果的一些最受欢迎的零售和备份服务出现了中断。
这次故障大约是从太平洋时间下午12:30分开始的,客户无法访问多个iCloud和App Store服务。
App Store、Apple TV App Store以及Mac App Store、iTunes以及苹果基于云的相片服务都出现了中断。
Amazon Web Services,6月4日
6月4日,一场风暴袭击了澳大利亚悉尼,这个区域内的Amazon Web Services失去了能源供应,为一些名牌企业托管在EC2实例和EBS卷上的关键工作负载随即中断。
在那个周末,澳大利亚地区AWS的网站和在线服务中断了大约10个小时,破坏了从银行服务到披萨饼外送的所有事情。
受到影响的企业客户在世界最大的云供应商努力恢复服务的时候指责之声四起。
Pokémon Go,7月
好吧,这并不是企业关注的事,甚至也不是出现在上半年,但是考虑到谷歌在Niantic推出的这款游戏引发的狂热,在此提一提也是很有意思的。
自从Pokémon Go在7月6日推出之后,多次的服务中断已经影响到了玩家,有些时候他们在狩猎怪物的时候会失去连接。
空前的访问量以及黑客们发起的分布式拒绝服务攻击推迟了该游戏在欧洲的上市,开发人员正在努力处理“被淹没的”服务器。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。