全年盘点：2017年国外的10大云故障原创

下面是盘点出的2017年国外10大云故障，提醒人们，这个快速成熟的行业，其出色运营的风险比以往任何时候都要高。

至顶网软件频道消息：随着云应用的愈发成熟，云计算提供商也开发出了更好的维护工具来运营最大的、最先进的服务器集群，因此，灾难性的云计算故障在2017年似乎是一个不合时宜的事了。虽然所有厂商都遭遇了可能会限制特定服务的宕机时间，或者局部不可用的短时间故障，但是很多人认为，在早期出现的那种大规模故障，肯定是原始时代的事情了。

但是接近2月底的时候，AWS的故障事件就震动了整个行业，打击了企业客户对采用云计算的信心，因为故障当天有数量庞大的业务受到影响，GitHub、Slack、Zendesk、Heroku、Twilio、Mailchimp、Citrix和Expedia，只是其中的一小部分。当AWS透露这次故障是由人为错误导致，人们的信心进一步降低——实际上是由于技术人员输入不正确的单行命令导致。

下面是盘点出的2017年国外10大云故障，提醒人们，这个快速成熟的行业，其出色运营的风险比以往任何时候都要高。

IBM，1月26日

今年年初，IBM云的可信度受到打击，当时客户用于访问Bluemix云基础设施的一个管理门户出现数小时的故障。

虽然底层基础设施没有发生故障，但是客户沮丧地发现，他们无法管理他们的应用、无法添加或者移除为工作负载提供支持的云资源。

IBM表示，这次故障是间歇性的，是由接口的错误更新导致。

GitLab，1月31日

GitLab广受欢迎的在线代码库GitLab.com遭遇了18个小时的服务中断，最终还是没有完全修复。这次故障主要原因是，一位员工在维护流程中将一个数据库目录从错误的数据库服务器中删除导致的。

GitLab事后表示，最乐观的估计是，这次故障影响了大约5000个项目、5000条评论和700个新用户帐户。

Facebook，2月2日

在漫长而痛苦的三个小时中，全球各地的一些用户被锁在Facebook之外，担心他们的帐户被黑客入侵。

社交媒体巨头Facebook随后解释说，有功能将会防范黑客发送给用户一个恢复屏幕，让人感觉有人登录了他们的帐户，受影响的用户会被阻止立即重新登录。

Facebook确认实际上并没有发生安全漏洞。这是Facebook第二次出现故障。几天之前，有人报告说他们看不到他们的新闻消息。

AWS，2月28日

这是一次震动整个业界的故障事件。一位AWS工程师试图对位于弗吉尼亚州数据中心内的一个S3存储系统进行调试的时候，意外地输入了一个错误命令行，随后大部分互联网，包括Slack、Quora和Trello在内的很多企业平台停机了4个小时。

调查显示，该员工使用既定的步骤，试图关闭少量托管了计费流程子系统的服务器。相反，意外的命令导致更大范围服务器处于脱机状态，其中包括为服务器提供特定数据存储所需的一个子系统，以及另一个分配新存储的子系统。

这次由这样一家几乎占据了全球1/3云市场份额的提供商导致的故障，重新引发了关于公有云风险的争论。

微软，3月16日

存储可用性问题困扰了微软Azure公有云超过8个小时，主要影响到美国东部的一些客户。一些用户无法配置新存储或者访问该地区的现有资源。随后一个微软工程团队将这次故障归咎于一个存储集群端点并出现不可用的情况。

除了该问题之外，微软还在Azure状态页面上列出了一个软件错误，使得多个服务的存储配置受影响超过1个小时。

微软Office 365，3月21日

由于用户身份验证问题，导致多个微软企业和消费级云服务（包括Office 365存储和电子邮件服务）无法使用。

这次受影响广泛的故障使得客户无法访问OneDrive存储、Skype协作、Outlook电子邮件、以及像Xbox Live这样的消费级产品。

苹果iCloud，6月28日

有多个社交媒体来源报道称，苹果iCloud Backup服务出现了可用性故障。平台的系统状态页面显示，iCloud Backup只影响了不到1%的用户。

在这次故障中，受影响的用户无法从之前的备份中恢复iOS设备，持续了至少36小时。虽然恢复过程会被挂起无法完成，但是启动新的设备备份以保护数据是没有问题的。

AWS，9月14日

虽然9月份发生的这起AWS服务远不如2月份的那么严重，但事实上这次故障影响了S3存储服务，且源自于同一个US-EAST-1地区，足以引起人们对半年前灾难性事件的不愉快回忆。

访问存储块出现问题，从当天中午开始引起人们的注意，并在东部时间下午1点前得到控制。

微软Azure，9月29日

当天欧洲的客户无法使用微软Azure公有云中的一些服务长达7个小时。这次让北欧第二大云计算提供商出现故障的原因是意外启动了灭火系统。微软表示，对系统的日常维护工作导致灭火气体释放，自动出发空调系统关闭，从而让设备温度升高，迫使计算机系统自动关闭。

像Virtual Machines、Cloud Services、Azure Backup等多个重要服务都在本地时间下午1:27到8:15处于脱机状态。

Google Docs，11月15日

有数千位Google Docs用户遭遇了服务中断，导致他们的业务受到影响。

这次停机是从东部时间下午4点之前开始的，持续了30分钟到1个小时的时间。Google证实，这次故障影响了一个“重要用户子集”，备受欢迎的文档创建和编辑工具也无法访问文件。

Google表示，在周三晚上对于大多数用户来说Google Docs服务已经恢复。

Google的一家合作伙伴表示，在其400家企业客户中，有6家受到这次故障的影响。这家解决方案提供商，同时也是Google用户，本身也受到了影响。

来源：CRN

云计算

0赞

好文章，需要你的鼓励

推荐文章

CoreWeave LOTA技术实现对象数据高速全球传输

人工智能

云存储技术

数据传输加速

2025-10-17

CoreWeave LOTA技术实现对象数据高速全球传输

CoreWeave发布AI对象存储服务，采用本地对象传输加速器（LOTA）技术，可在全球范围内高速传输对象数据，无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输，提供高达每GPU 7 GBps的吞吐量，可扩展至数十万个GPU。服务采用三层自动定价模式，为客户的AI工作负载降低超过75%的存储成本。

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

人工智能

检索增强生成

多智能体系统

2025-10-17

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

IDEA研究院等机构联合开发了ToG-3智能推理系统，通过多智能体协作和双重进化机制，让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异，能用较小模型达到卓越性能，为AI技术的普及应用开辟了新路径，在教育、医疗、商业决策等领域具有广阔应用前景。

谷歌DeepMind与CFS合作开发核聚变等离子体AI控制系统

人工智能

核聚变

新型算法

2025-10-17

谷歌DeepMind与CFS合作开发核聚变等离子体AI控制系统

谷歌DeepMind与核聚变初创公司CFS合作，运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体，结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯，可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。

AI训练新突破：上海AI实验室让大模型自己当老师，推理和判断能力同步飞跃

人工智能

强化学习

协同训练

2025-10-17

AI训练新突破：上海AI实验室让大模型自己当老师，推理和判断能力同步飞跃

上海人工智能实验室提出SPARK框架，创新性地让AI模型在学习推理的同时学会自我评判，通过回收训练数据建立策略与奖励的协同进化机制。实验显示，该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%，且训练成本仅为传统方法的一半，展现出强大的泛化能力和自我反思能力。

2017

12/25

11:14

分享

点赞

最新文章

相关文章

邮件订阅

白皮书

更多

AI启示录

更多

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证