ZD至顶网软件频道消息:所有云都停机了。但是当你主导市场的时候,你会受到更多的关注。
上周二,美国弗吉尼亚州AWS数据中心的一个认为错误导致了大规模的服务中断,这是4年以来遭遇的最大一次公有云中断。不断是否是AWS的问题,考虑到AWS有庞大的客户群,以及使用AWS作为平台的服务提供商为数众多,所以更加放大了这次服务中断的影响。
这样的情况在AWS早期开拓市场的时候并不少见。每年发生两次或者三次大事件是常态,但是现在情况不一样了。
尽管如此,考虑到最近的故障以及它遭受的审查风暴,我们决定对过去进行一次总结,看看哪些事件是AWS最不堪回首的。
风暴席卷:2016年6月
2016年6月悉尼遭遇风暴,AWS在该地区的设施停电,很多EC2实例以及为一些知名公司托管关键负载的EBS卷接连出现故障。在那个周末,澳大利亚AWS可用区域的网站和在线服务中断了近10个小时,使得从银行服务到披萨送货都出现了问题。
DNS拒绝:2014年11月
2014年11月AWS的CloudFront DNS服务出现近2个小时的中断。一些网站和云服务出现脱机,因为在故障期间内容交付网络无法满足DNS请求。
黑色星期五:2013年9月
2013年9月13日黑色星期五发生的这次故障是由负载均衡问题所导致的,部分地区客户受到影响。Amaozn解决了复杂均衡的接入问题,并增加了配置时间以防止后续这种问题的出现。虽然这次中断只持续了大约2个小时且只影响到弗吉尼亚州的一个可用区域,但对Amazon来说,却是一个要制定备份计划的重要提醒。
圣诞节:2012年12月
AWS在2012年的圣诞前夜遭遇服务中断,这使得Netflix无法在这个在线电影交付最繁忙的时候正常运转。这家知名客户因为这次不幸指责Amazon,成为这次事件的一个持久回忆。
背靠背:2012年6月
2012年6月,Amazon位于弗吉尼亚的数据中心出现服务中断,导致运营停止约6个小时,影响到几十家客户。10月22日,弗吉尼亚数据中心的另一个问题导致很多客户的网站无法正常运行。两次相继发生的中断事件使得很多企业领导者对采用云感到不安,当时云这个理念刚刚在企业中开始被接受。
黑暗后的沉默:2011年4月
这是2011年的首次中断事件,引起了人们对云有时候很脆弱的关注,并且说明,随着事情的进展沟通是最关键的。Amazon最大的一些客户甚至离线数天时间。
当客户正在努力恢复运行的时候,云计算巨头Amazon却一直沉默。一个星期过去了,Amazon才发布了关于这次事故一个非常技术的、冗长的文章。Amazon归咎于“重新镜像风暴”,并向客户道歉。这次事件被很多人看作是如果不处理服务中断事故会受到怎样的教训。
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  英伟达和诺基亚宣布战略合作,将英伟达AI驱动的无线接入网产品集成到诺基亚RAN产品组合中,助力运营商在英伟达平台上部署AI原生5G Advanced和6G网络。双方将推出AI-RAN系统,提升网络性能和效率,为生成式AI和智能体AI应用提供无缝体验。英伟达将投资10亿美元并推出6G就绪的ARC-Pro计算平台,试验预计2026年开始。
这项由哥伦比亚大学研究团队完成的突破性研究首次揭示了AI系统自我改进中的"效用-学习张力"问题:系统追求更好性能时会增加复杂度,但过高复杂度会破坏学习能力。研究建立了学习边界定理,提出双门控制机制,为AI安全自我改进提供了理论基础和实用方案,对确保AI技术长期安全发展具有重要意义。
虽然ChatGPT等AI工具正在快速改变世界,但它们并非无所不知的神谕。ChatGPT擅长"令人信服的错误",经常提供有偏见、过时或完全错误的答案。在健康诊断、心理健康、紧急安全决策、个人财务规划、机密数据处理、违法行为、学术作弊、实时信息监控、赌博预测、法律文件起草和艺术创作等11个关键领域,用户应避免完全依赖ChatGPT,而应寻求专业人士帮助。
这项由Reactive AI公司Adam Filipek主导的研究提出了反应式变换器(RxT),通过事件驱动架构和固定大小记忆系统,将传统聊天机器人的对话成本从平方级降为线性级,使长期对话成本降低99%以上,同时实现恒定响应速度。实验证明即使12M参数的RxT也显著优于22M传统模型,为高效对话AI开辟新路径。
 
             
                 
                     
                     
                    