ZD至顶网软件频道消息:随着云提供商不断积累运营经验和技术的日益成熟,云故障的频率和持续时间都在减少。
这是个好消息。但另一方面,企业却在面对宕机的时候变得越来越脆弱。随着现代化应用和数据源变得越来越分散,我们对它们来管理日常生活方方面面的依赖性也越来越高,潜在的危害,或者强烈的挫折感,变得比以往任何时候都更大。
在接近年底的时候,DNS提供商Dyn遭受的故障表明,严重的漏洞可能会导致日益连接的世界瘫痪。
Verizon:1月14日
1月14日,Verizon数据中心断电影响到JetBlue航空公司的运营,导致数个航班延误,让许多乘客不得不重新预定。
Verizon并没有说哪个数据中心遭受了断电故障。
位于纽约的JetBlue公司在一篇博客文章中写到,该公司遭受的网络问题是因为Verizon的一个数据中心断电影响到客户支持系统,包括jetblue.com网站、移动应用、免费电话号码、值机、机场柜台和闸门系统。
微软Office 365:1月18日和2月22日
从1月18日开始,一些Office 365用户一连数天无法使用他们的云电子邮件帐户,这让他们痛苦不堪。
微软将这归咎于有漏洞的软件更新,但是第一次尝试修复并没有成功,5天之后第二次电子邮件故障激怒了客户。这个云生产力套件的电子邮件服务故障在一些情况下会持续超过一周的事件。虽然并非所有Office 365用户都受到宕机的影响,但微软证实,这次受影响的用户较多。
大约一个月后,微软在欧洲的一些客户发现他们无法通过手机访问电子邮箱,或者尝试通过网页版登录到Office 365服务的时候遭遇延迟。
微软表示,这两次故障的发生,都是因为用户重度资源需求导致基础设施组件降级。
Salesforce:3月3日
Salesforce在欧洲的一些客户不得不面对由于一个存储问题导致长达10小时的CRM故障。
即使是在存储层重新连接之后,一些功能仍然无法正常工作,Salesforce继续报告其EU2实例的性能下降。
Google Cloud Platform:4月11日
4月11日晚,Google Cloud Platform出现18分钟的中段,影响到Compute Engine实例和所有地区的VPN服务。
Google为受影响的客户提供每月Google Cloud Engine费用10%的折扣,以及每月VPN费用25%的折扣。
Salesforce:5月10日
5月10日,Salesforce.com持续中断了4个小时,让客户无进入CRM,并用了数天才完全修补好。
尽管Salesforce首席执行官Marc Benioff个人在Twitter上向一位客户道歉,但是并没有就这次故障受印象的范围、或者与NA14(Salesforce在北美的45个云实例之一)相关数据库故障影响到哪些地区或者服务作出评论。
Salesforce的系统状态页面表示性能下降开始于美国东部事件上午8:41,随后是不到一个小时的“服务中断”,时间是上午9:31。
Apple:6月2日
Apple云在6月2日发生广泛的服务中断,让Apple一些受欢迎的零售和备份服务服务都出现中断。
这次故障从太平洋时间下午12:30开始,让一些客户无法访问多个iCloud和App Store服务。
App Store、Apple TV App Store和Mac App Store、iTunes和Apple基于云的图片服务都遇到了中断。
AWS:6月4日
6月4日澳大利亚悉尼早于暴风雨,导致该地区的一个AWS域断电,一些托管了关键工作负载的EC2实例和EBS卷随后出现故障。
同时在那个周末,澳大利亚AWS可用区域内的网站和在线服务出现大约10个小时的中断,从银行服务到披萨送货都受到了影响。
受影响的企业客户敦促这个全球最大的云提供商尽快恢复服务。
Google Nest:8月22日
当美国全国遭遇热浪的时候,Google Nest恒温器也出现了连接错误,导致许多客户无法远程控制他们的空调系统。
虽然客户仍然可以手动控制AC,但是广泛的故障引发了人们对智能家居技术潜在漏洞的关注。Nest还售卖面向家庭、儿童监控和烟雾探测器的Dropcam。
微软Azure:9月15日
包括SQL Database在内的多个微软Azure服务,在9月15日波及所有地区用户的全球性DNS故障中发生降级。
微软在美国东部时间上午9点在Azure状态页面上报告了这次故障,并指出工程师们已经找出了导致该故障的底层问题,正在确定缓解问题的选项。截止上午11点,微软报告大多数中断的服务已经恢复上线。
一周之前也就是9月9日,Azure欧洲客户刚刚遭遇了数小时的服务中断。
Dyn:10月21日
10月21日,互联网性能管理公司Dyn早于网络攻击,导致广泛的服务中断,影响到包括AWS在内的多家云服务提供商,其中AWS不得不重新路由到备用的DNS提供商。
总部在曼彻斯特的Dyn公司表示,他们的服务器基础设施成为了这次分布式DDoS攻击的目标,特别影响到DNS客户。这种攻击是独一无二的,因为它来自数百万已经被恶意软件接管的物联网设备,如连接的相机和打印机。
许多依赖于Dyn流量管理和优化服务的流行网站出现中断或者遇到问题,包括Twitter、Spotify和Github。
好文章,需要你的鼓励
英伟达在SIGGRAPH大会上发布了全新的AI世界模型、库和机器人开发基础设施。其中最引人注目的是Cosmos Reason,这是一个70亿参数的"推理"视觉语言模型,专门用于物理AI应用和机器人。新发布的还包括Cosmos Transfer-2模型,能够从3D仿真场景加速合成数据生成,以及速度优化版本。公司还推出了神经重建库、RTX Pro Blackwell服务器和DGX Cloud云平台,旨在为机器人开发提供完整的解决方案。
清华大学团队开发出DPoser-X人体姿态AI系统,使用创新的扩散模型技术统一处理全身、手部、面部姿态建模。该系统采用混合训练策略和截断时间步调度,在8个权威测试基准上比现有方法准确度提升61%。技术可广泛应用于动画制作、体育训练、医疗康复、虚拟现实等领域,代表AI理解人类行为的重要突破。
两大企业基础设施厂商宣布产品线扩展,为客户提供更多大规模部署人工智能工作负载的选择。戴尔更新AI数据平台,新增非结构化数据引擎,并推出搭载英伟达RTX PRO 6000 Blackwell GPU的PowerEdge服务器。HPE扩展AI优化系统配置,支持自主AI和物理AI应用。两家公司均集成英伟达最新Blackwell架构GPU和AI软件套件,提供从数据处理到模型推理的完整解决方案。
Meta研究团队推出FACTORY测试系统,这是首个大规模人工验证的AI事实准确性评估基准,包含超过1万个高难度问题。测试结果显示,即使是最先进的AI系统在面对复杂事实性问题时准确率也仅约60%,远低于传统测试中的90%以上表现。该研究揭示了当前AI系统在专业知识覆盖和复杂推理能力方面的不足。