一字之错导致亚马逊 AWS网站离线

亚马逊网络服务(AWS)周四报道,AWS出了几个小时状况导致周二几个主要网站及另外几个网站离线,其原因是一字之错...

ZD至顶网软件频道消息:亚马逊网络服务(AWS)周四报道,AWS出了几个小时状况导致周二几个主要网站及另外几个网站离线,其原因是一字之错。

云基础架构提供商AWS发布了以下的解释:

Amazon Simple Storage Service(S3)团队当时在调试系统纠正一个导致S3计费系统进展比预期更慢的问题。太平洋标准时间早上9:37分( 北京时间次日凌晨2:37),一名S3团队授权成员根据既定步骤执行了一个命令,目的是从S3计费过程的S3子系统里移除少量的服务器。不幸的是,其中的一个命令输入错误,导致多个原本不应该被移除的服务器被移除。

粗心大意的错误导致对美国东部区全部S3对象至为关键的两个子系统离线,美国东部区内有大量的数据中心,是最早期的亚马逊区。两个系统都需要从头重新启动。亚马逊指,此过程以及运行必要的安全检查“花了比预期更长的时间”。

两个系统重新启动时,S3无法接受服务请求。该地区其他依靠S3存储的AWS服务也受到影响,其中包括S3控制台、亚马逊弹性计算云(EC2)新实例的启动、亚马逊弹性块存储(EBS)卷(其数据需要从S3快照里获取)和AWS Lambda。

亚马逊称,索引子系统在太平洋时间下午1:18完全恢复,而位置子系统于下午 1:54恢复。至此,S3操作恢复正常。

AWS称鉴于此次事件的发生正在引入“几个改变”,包括防止不正确输入的步骤,以避免同类问题的发生。

AWS博客里做了这样的解释,“尽管在这种情况下移除一部分系统功能是一个重要的操作手法,但其工具软件不应该这么快地将许多系统功能移除掉。我们已经对该工具软件进行了修改,使其更慢地移除系统功能,并添加了安全措施,以防止在移除系统功能时导致任何子系统的功能低于最低水平。”

AWS采取的其他主要措施包括:他们开始将索引子系统划分成更小的小区。AWS还改了AWS管理控制台服务健康仪表板,以使其可以在多个AWS区域运行,颇具讽刺意味的是,周二的一字之错导致仪表板不能用,AWS只得靠推特(Twitter)就有关事宜通知客户。

来源:ZD至顶网软件频道

0赞

好文章,需要你的鼓励

2017

03/03

12:21

分享

点赞

邮件订阅
白皮书