ZD至顶网软件频道消息:亚马逊网络服务(AWS)周四报道,AWS出了几个小时状况导致周二几个主要网站及另外几个网站离线,其原因是一字之错。
云基础架构提供商AWS发布了以下的解释:
Amazon Simple Storage Service(S3)团队当时在调试系统纠正一个导致S3计费系统进展比预期更慢的问题。太平洋标准时间早上9:37分( 北京时间次日凌晨2:37),一名S3团队授权成员根据既定步骤执行了一个命令,目的是从S3计费过程的S3子系统里移除少量的服务器。不幸的是,其中的一个命令输入错误,导致多个原本不应该被移除的服务器被移除。
粗心大意的错误导致对美国东部区全部S3对象至为关键的两个子系统离线,美国东部区内有大量的数据中心,是最早期的亚马逊区。两个系统都需要从头重新启动。亚马逊指,此过程以及运行必要的安全检查“花了比预期更长的时间”。
两个系统重新启动时,S3无法接受服务请求。该地区其他依靠S3存储的AWS服务也受到影响,其中包括S3控制台、亚马逊弹性计算云(EC2)新实例的启动、亚马逊弹性块存储(EBS)卷(其数据需要从S3快照里获取)和AWS Lambda。
亚马逊称,索引子系统在太平洋时间下午1:18完全恢复,而位置子系统于下午 1:54恢复。至此,S3操作恢复正常。
AWS称鉴于此次事件的发生正在引入“几个改变”,包括防止不正确输入的步骤,以避免同类问题的发生。
AWS博客里做了这样的解释,“尽管在这种情况下移除一部分系统功能是一个重要的操作手法,但其工具软件不应该这么快地将许多系统功能移除掉。我们已经对该工具软件进行了修改,使其更慢地移除系统功能,并添加了安全措施,以防止在移除系统功能时导致任何子系统的功能低于最低水平。”
AWS采取的其他主要措施包括:他们开始将索引子系统划分成更小的小区。AWS还改了AWS管理控制台服务健康仪表板,以使其可以在多个AWS区域运行,颇具讽刺意味的是,周二的一字之错导致仪表板不能用,AWS只得靠推特(Twitter)就有关事宜通知客户。
好文章,需要你的鼓励
IDC数据显示,Arm架构服务器出货量预计2025年将增长70%,但仅占全球总出货量的21.1%,远低于Arm公司年底达到50%市场份额的目标。大规模机架配置系统如英伟达DGX GB200 NVL72等AI处理设备推动了Arm服务器需求。2025年第一季度全球服务器市场达到创纪录的952亿美元,同比增长134.1%。IDC将全年预测上调至3660亿美元,增长44.6%。配备GPU的AI服务器预计增长46.7%,占市场价值近半。
华为诺亚实验室联合多家顶尖院校推出开源机器人编程框架Ark,通过Python优先设计和模块化架构,实现仿真与现实环境的无缝切换。该框架大幅降低机器人编程门槛,支持现代AI技术集成,为机器人学习研究提供统一平台,有望加速机器人技术普及。
AI正在重塑创业公司的构建方式,这是自云计算出现以来最重大的变革。January Ventures联合创始人Jennifer Neundorfer将在TechCrunch All Stage活动中分享AI时代的新规则,涵盖从创意验证、产品开发到团队架构和市场策略的各个方面。作为专注于B2B早期投资的风投合伙人,她将为各阶段创业者提供关键洞察。
网易有道研究团队开发了Confucius3-Math,这是一个专门针对中国K-12数学教育的14B参数AI模型。该模型在多项数学推理测试中表现出色,超越了许多规模更大的竞争对手,训练成本仅需2.6万美元,推理速度比DeepSeek-R1快15倍,能在消费级GPU上高效运行,旨在通过降低AI教育成本来促进教育公平。