至顶网软件频道消息: 随着云应用的愈发成熟,云计算提供商也开发出了更好的维护工具来运营最大的、最先进的服务器集群,因此,灾难性的云计算故障在2017年似乎是一个不合时宜的事了。虽然所有厂商都遭遇了可能会限制特定服务的宕机时间,或者局部不可用的短时间故障,但是很多人认为,在早期出现的那种大规模故障,肯定是原始时代的事情了。
但是接近2月底的时候,AWS的故障事件就震动了整个行业,打击了企业客户对采用云计算的信心,因为故障当天有数量庞大的业务受到影响,GitHub、Slack、Zendesk、Heroku、Twilio、Mailchimp、Citrix和Expedia,只是其中的一小部分。当AWS透露这次故障是由人为错误导致,人们的信心进一步降低——实际上是由于技术人员输入不正确的单行命令导致。
下面是盘点出的2017年国外10大云故障,提醒人们,这个快速成熟的行业,其出色运营的风险比以往任何时候都要高。
IBM,1月26日
今年年初,IBM云的可信度受到打击,当时客户用于访问Bluemix云基础设施的一个管理门户出现数小时的故障。
虽然底层基础设施没有发生故障,但是客户沮丧地发现,他们无法管理他们的应用、无法添加或者移除为工作负载提供支持的云资源。
IBM表示,这次故障是间歇性的,是由接口的错误更新导致。
GitLab,1月31日
GitLab广受欢迎的在线代码库GitLab.com遭遇了18个小时的服务中断,最终还是没有完全修复。这次故障主要原因是,一位员工在维护流程中将一个数据库目录从错误的数据库服务器中删除导致的。
GitLab事后表示,最乐观的估计是,这次故障影响了大约5000个项目、5000条评论和700个新用户帐户。
Facebook,2月2日
在漫长而痛苦的三个小时中,全球各地的一些用户被锁在Facebook之外,担心他们的帐户被黑客入侵。
社交媒体巨头Facebook随后解释说,有功能将会防范黑客发送给用户一个恢复屏幕,让人感觉有人登录了他们的帐户,受影响的用户会被阻止立即重新登录。
Facebook确认实际上并没有发生安全漏洞。这是Facebook第二次出现故障。几天之前,有人报告说他们看不到他们的新闻消息。
AWS,2月28日
这是一次震动整个业界的故障事件。一位AWS工程师试图对位于弗吉尼亚州数据中心内的一个S3存储系统进行调试的时候,意外地输入了一个错误命令行,随后大部分互联网,包括Slack、Quora和Trello在内的很多企业平台停机了4个小时。
调查显示,该员工使用既定的步骤,试图关闭少量托管了计费流程子系统的服务器。相反,意外的命令导致更大范围服务器处于脱机状态,其中包括为服务器提供特定数据存储所需的一个子系统,以及另一个分配新存储的子系统。
这次由这样一家几乎占据了全球1/3云市场份额的提供商导致的故障,重新引发了关于公有云风险的争论。
微软,3月16日
存储可用性问题困扰了微软Azure公有云超过8个小时,主要影响到美国东部的一些客户。一些用户无法配置新存储或者访问该地区的现有资源。随后一个微软工程团队将这次故障归咎于一个存储集群端点并出现不可用的情况。
除了该问题之外,微软还在Azure状态页面上列出了一个软件错误,使得多个服务的存储配置受影响超过1个小时。
微软Office 365,3月21日
由于用户身份验证问题,导致多个微软企业和消费级云服务(包括Office 365存储和电子邮件服务)无法使用。
这次受影响广泛的故障使得客户无法访问OneDrive存储、Skype协作、Outlook电子邮件、以及像Xbox Live这样的消费级产品。
苹果iCloud,6月28日
有多个社交媒体来源报道称,苹果iCloud Backup服务出现了可用性故障。平台的系统状态页面显示,iCloud Backup只影响了不到1%的用户。
在这次故障中,受影响的用户无法从之前的备份中恢复iOS设备,持续了至少36小时。虽然恢复过程会被挂起无法完成,但是启动新的设备备份以保护数据是没有问题的。
AWS,9月14日
虽然9月份发生的这起AWS服务远不如2月份的那么严重,但事实上这次故障影响了S3存储服务,且源自于同一个US-EAST-1地区,足以引起人们对半年前灾难性事件的不愉快回忆。
访问存储块出现问题,从当天中午开始引起人们的注意,并在东部时间下午1点前得到控制。
微软Azure,9月29日
当天欧洲的客户无法使用微软Azure公有云中的一些服务长达7个小时。这次让北欧第二大云计算提供商出现故障的原因是意外启动了灭火系统。微软表示,对系统的日常维护工作导致灭火气体释放,自动出发空调系统关闭,从而让设备温度升高,迫使计算机系统自动关闭。
像Virtual Machines、Cloud Services、Azure Backup等多个重要服务都在本地时间下午1:27到8:15处于脱机状态。
Google Docs,11月15日
有数千位Google Docs用户遭遇了服务中断,导致他们的业务受到影响。
这次停机是从东部时间下午4点之前开始的,持续了30分钟到1个小时的时间。Google证实,这次故障影响了一个“重要用户子集”,备受欢迎的文档创建和编辑工具也无法访问文件。
Google表示,在周三晚上对于大多数用户来说Google Docs服务已经恢复。
Google的一家合作伙伴表示,在其400家企业客户中,有6家受到这次故障的影响。这家解决方案提供商,同时也是Google用户,本身也受到了影响。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。