ZD至顶网软件频道消息:所有云都停机了。但是当你主导市场的时候,你会受到更多的关注。
上周二,美国弗吉尼亚州AWS数据中心的一个认为错误导致了大规模的服务中断,这是4年以来遭遇的最大一次公有云中断。不断是否是AWS的问题,考虑到AWS有庞大的客户群,以及使用AWS作为平台的服务提供商为数众多,所以更加放大了这次服务中断的影响。
这样的情况在AWS早期开拓市场的时候并不少见。每年发生两次或者三次大事件是常态,但是现在情况不一样了。
尽管如此,考虑到最近的故障以及它遭受的审查风暴,我们决定对过去进行一次总结,看看哪些事件是AWS最不堪回首的。
风暴席卷:2016年6月
2016年6月悉尼遭遇风暴,AWS在该地区的设施停电,很多EC2实例以及为一些知名公司托管关键负载的EBS卷接连出现故障。在那个周末,澳大利亚AWS可用区域的网站和在线服务中断了近10个小时,使得从银行服务到披萨送货都出现了问题。
DNS拒绝:2014年11月
2014年11月AWS的CloudFront DNS服务出现近2个小时的中断。一些网站和云服务出现脱机,因为在故障期间内容交付网络无法满足DNS请求。
黑色星期五:2013年9月
2013年9月13日黑色星期五发生的这次故障是由负载均衡问题所导致的,部分地区客户受到影响。Amaozn解决了复杂均衡的接入问题,并增加了配置时间以防止后续这种问题的出现。虽然这次中断只持续了大约2个小时且只影响到弗吉尼亚州的一个可用区域,但对Amazon来说,却是一个要制定备份计划的重要提醒。
圣诞节:2012年12月
AWS在2012年的圣诞前夜遭遇服务中断,这使得Netflix无法在这个在线电影交付最繁忙的时候正常运转。这家知名客户因为这次不幸指责Amazon,成为这次事件的一个持久回忆。
背靠背:2012年6月
2012年6月,Amazon位于弗吉尼亚的数据中心出现服务中断,导致运营停止约6个小时,影响到几十家客户。10月22日,弗吉尼亚数据中心的另一个问题导致很多客户的网站无法正常运行。两次相继发生的中断事件使得很多企业领导者对采用云感到不安,当时云这个理念刚刚在企业中开始被接受。
黑暗后的沉默:2011年4月
这是2011年的首次中断事件,引起了人们对云有时候很脆弱的关注,并且说明,随着事情的进展沟通是最关键的。Amazon最大的一些客户甚至离线数天时间。
当客户正在努力恢复运行的时候,云计算巨头Amazon却一直沉默。一个星期过去了,Amazon才发布了关于这次事故一个非常技术的、冗长的文章。Amazon归咎于“重新镜像风暴”,并向客户道歉。这次事件被很多人看作是如果不处理服务中断事故会受到怎样的教训。
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
DeepSeek-AI团队通过创新的软硬件协同设计,仅用2048张GPU训练出性能卓越的DeepSeek-V3大语言模型,挑战了AI训练需要海量资源的传统观念。该研究采用多头潜在注意力、专家混合架构、FP8低精度训练等技术,大幅提升内存效率和计算性能,为AI技术的民主化和可持续发展提供了新思路。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
加拿大女王大学研究团队首次系统评估了大型视频语言模型的因果推理能力,发现即使最先进的AI在理解视频中事件因果关系方面表现极差,大多数模型准确率甚至低于随机猜测。研究创建了全球首个视频因果推理基准VCRBench,并提出了识别-推理分解法(RRD),通过任务分解显著提升了AI性能,最高改善幅度达25.2%。