ZD至顶网软件频道消息:随着云提供商不断积累运营经验和技术的日益成熟,云故障的频率和持续时间都在减少。
这是个好消息。但另一方面,企业却在面对宕机的时候变得越来越脆弱。随着现代化应用和数据源变得越来越分散,我们对它们来管理日常生活方方面面的依赖性也越来越高,潜在的危害,或者强烈的挫折感,变得比以往任何时候都更大。
在接近年底的时候,DNS提供商Dyn遭受的故障表明,严重的漏洞可能会导致日益连接的世界瘫痪。
Verizon:1月14日
1月14日,Verizon数据中心断电影响到JetBlue航空公司的运营,导致数个航班延误,让许多乘客不得不重新预定。
Verizon并没有说哪个数据中心遭受了断电故障。
位于纽约的JetBlue公司在一篇博客文章中写到,该公司遭受的网络问题是因为Verizon的一个数据中心断电影响到客户支持系统,包括jetblue.com网站、移动应用、免费电话号码、值机、机场柜台和闸门系统。
微软Office 365:1月18日和2月22日
从1月18日开始,一些Office 365用户一连数天无法使用他们的云电子邮件帐户,这让他们痛苦不堪。
微软将这归咎于有漏洞的软件更新,但是第一次尝试修复并没有成功,5天之后第二次电子邮件故障激怒了客户。这个云生产力套件的电子邮件服务故障在一些情况下会持续超过一周的事件。虽然并非所有Office 365用户都受到宕机的影响,但微软证实,这次受影响的用户较多。
大约一个月后,微软在欧洲的一些客户发现他们无法通过手机访问电子邮箱,或者尝试通过网页版登录到Office 365服务的时候遭遇延迟。
微软表示,这两次故障的发生,都是因为用户重度资源需求导致基础设施组件降级。
Salesforce:3月3日
Salesforce在欧洲的一些客户不得不面对由于一个存储问题导致长达10小时的CRM故障。
即使是在存储层重新连接之后,一些功能仍然无法正常工作,Salesforce继续报告其EU2实例的性能下降。
Google Cloud Platform:4月11日
4月11日晚,Google Cloud Platform出现18分钟的中段,影响到Compute Engine实例和所有地区的VPN服务。
Google为受影响的客户提供每月Google Cloud Engine费用10%的折扣,以及每月VPN费用25%的折扣。
Salesforce:5月10日
5月10日,Salesforce.com持续中断了4个小时,让客户无进入CRM,并用了数天才完全修补好。
尽管Salesforce首席执行官Marc Benioff个人在Twitter上向一位客户道歉,但是并没有就这次故障受印象的范围、或者与NA14(Salesforce在北美的45个云实例之一)相关数据库故障影响到哪些地区或者服务作出评论。
Salesforce的系统状态页面表示性能下降开始于美国东部事件上午8:41,随后是不到一个小时的“服务中断”,时间是上午9:31。
Apple:6月2日
Apple云在6月2日发生广泛的服务中断,让Apple一些受欢迎的零售和备份服务服务都出现中断。
这次故障从太平洋时间下午12:30开始,让一些客户无法访问多个iCloud和App Store服务。
App Store、Apple TV App Store和Mac App Store、iTunes和Apple基于云的图片服务都遇到了中断。
AWS:6月4日
6月4日澳大利亚悉尼早于暴风雨,导致该地区的一个AWS域断电,一些托管了关键工作负载的EC2实例和EBS卷随后出现故障。
同时在那个周末,澳大利亚AWS可用区域内的网站和在线服务出现大约10个小时的中断,从银行服务到披萨送货都受到了影响。
受影响的企业客户敦促这个全球最大的云提供商尽快恢复服务。
Google Nest:8月22日
当美国全国遭遇热浪的时候,Google Nest恒温器也出现了连接错误,导致许多客户无法远程控制他们的空调系统。
虽然客户仍然可以手动控制AC,但是广泛的故障引发了人们对智能家居技术潜在漏洞的关注。Nest还售卖面向家庭、儿童监控和烟雾探测器的Dropcam。
微软Azure:9月15日
包括SQL Database在内的多个微软Azure服务,在9月15日波及所有地区用户的全球性DNS故障中发生降级。
微软在美国东部时间上午9点在Azure状态页面上报告了这次故障,并指出工程师们已经找出了导致该故障的底层问题,正在确定缓解问题的选项。截止上午11点,微软报告大多数中断的服务已经恢复上线。
一周之前也就是9月9日,Azure欧洲客户刚刚遭遇了数小时的服务中断。
Dyn:10月21日
10月21日,互联网性能管理公司Dyn早于网络攻击,导致广泛的服务中断,影响到包括AWS在内的多家云服务提供商,其中AWS不得不重新路由到备用的DNS提供商。
总部在曼彻斯特的Dyn公司表示,他们的服务器基础设施成为了这次分布式DDoS攻击的目标,特别影响到DNS客户。这种攻击是独一无二的,因为它来自数百万已经被恶意软件接管的物联网设备,如连接的相机和打印机。
许多依赖于Dyn流量管理和优化服务的流行网站出现中断或者遇到问题,包括Twitter、Spotify和Github。
好文章,需要你的鼓励
美国橡树岭国家实验室正在探索量子计算与传统高性能计算的集成技术。实验室已安装澳大利亚Quantum Brilliance公司的量子计算机,与世界顶级超算Frontier系统进行集成测试。该项目旨在结合两种技术优势,让各自处理最适合的计算任务。研究重点包括集成时间表、所需工具以及空间和功耗要求。这种混合架构将为企业用户带来更强大的计算能力,特别是在量子机器学习等应用领域。
Orange Research团队开发的DivMerge技术实现了AI模型合并的重大突破,通过基于信息论的Jensen-Shannon散度优化,能够将多个专门模型智能组合成保持各自专长的"超级模型"。该技术在双任务合并中达到99.18%性能保持率,显著优于传统88.48%的水平,且在多任务场景下展现更好扩展性,仅需25个样本即可有效工作,为AI应用降本增效提供了新路径。
人工智能驱动的AI工厂正成为数据中心新蓝图,将计算、互连和软件整合为优化的生产系统。硬件软件栈围绕CPU-GPU融合设计、高带宽结构重构。英伟达与英特尔的合作重新定义数据中心主板架构,将CUDA深度整合到企业栈中,巩固了英伟达的市场地位。这一联盟为英伟达带来巨大优势,Intel获得AI开发者关注,而AMD需要完善GPU软件策略。CUDA正快速成为行业标准,企业将推动符合其约束条件的AI工厂建设。
腾讯AI实验室联合多所知名高校开发了一种名为CDE的新型AI训练框架,通过模仿儿童的好奇心学习机制,让大语言模型能够自主探索未知领域。该方法使用两套"好奇心传感器"指导模型学习,在数学推理任务上平均提升3个百分点,同时解决了传统方法中的"校准崩塌"问题,为开发更智能自主的AI系统开辟了新路径。