ZD至顶网软件频道消息:亚马逊网络服务(AWS)周四报道,AWS出了几个小时状况导致周二几个主要网站及另外几个网站离线,其原因是一字之错。
云基础架构提供商AWS发布了以下的解释:
Amazon Simple Storage Service(S3)团队当时在调试系统纠正一个导致S3计费系统进展比预期更慢的问题。太平洋标准时间早上9:37分( 北京时间次日凌晨2:37),一名S3团队授权成员根据既定步骤执行了一个命令,目的是从S3计费过程的S3子系统里移除少量的服务器。不幸的是,其中的一个命令输入错误,导致多个原本不应该被移除的服务器被移除。
粗心大意的错误导致对美国东部区全部S3对象至为关键的两个子系统离线,美国东部区内有大量的数据中心,是最早期的亚马逊区。两个系统都需要从头重新启动。亚马逊指,此过程以及运行必要的安全检查“花了比预期更长的时间”。
两个系统重新启动时,S3无法接受服务请求。该地区其他依靠S3存储的AWS服务也受到影响,其中包括S3控制台、亚马逊弹性计算云(EC2)新实例的启动、亚马逊弹性块存储(EBS)卷(其数据需要从S3快照里获取)和AWS Lambda。
亚马逊称,索引子系统在太平洋时间下午1:18完全恢复,而位置子系统于下午 1:54恢复。至此,S3操作恢复正常。
AWS称鉴于此次事件的发生正在引入“几个改变”,包括防止不正确输入的步骤,以避免同类问题的发生。
AWS博客里做了这样的解释,“尽管在这种情况下移除一部分系统功能是一个重要的操作手法,但其工具软件不应该这么快地将许多系统功能移除掉。我们已经对该工具软件进行了修改,使其更慢地移除系统功能,并添加了安全措施,以防止在移除系统功能时导致任何子系统的功能低于最低水平。”
AWS采取的其他主要措施包括:他们开始将索引子系统划分成更小的小区。AWS还改了AWS管理控制台服务健康仪表板,以使其可以在多个AWS区域运行,颇具讽刺意味的是,周二的一字之错导致仪表板不能用,AWS只得靠推特(Twitter)就有关事宜通知客户。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。