软件Bug让谷歌云平台再次出现故障

作者：Simon Sharwood

软件bug让SSD误以为自己在维护期间已经没有剩余空间了，这就导致了谷歌云平台再次出现故障。

ZD至顶网软件频道消息：谷歌承认自己的云出问题了。而且是“再一次”。

最近的发生混乱发生于6月28日，us-central1-a 中的Google Compute Engine SSD Persistent Disks“在一个区域内经历了高层写入延迟和错误，这种情况持续了211分钟。”这场混乱意味着磁盘可能停止接受写入，而将SSD作为根分区的实例有可能会挂起。

虽然，谷歌云平台除了故障，但是谷歌对故障的披露方面还算令人信服。对于此次问题，谷歌表示：“两个并发的日常维护事件触发了Persistent Disk底层的分布式存储系统中的数据再平衡。”

不过用户不用担心这种“再平衡”，因为“这种再平衡旨在让维护时间对用户不可见，通过在不可用的存储设备和机器上平均地重新分布数据来实现。”

这正是云平台应该做到的：很多部件都在后台运行，对你来说是不可见的，它们维持着服务器的正常运转。

但是这一次，“一个以前没有发现的软件bug，由两个并发的维护事件触发，意味着因为再平衡变得不可用的磁盘块没有释放供随后再度使用，消耗了这个区域中的可用SSD空间，直到写操作被拒绝才被发现。”

一旦磁盘认为它们已经用光了所有的空间，就没有更聪明的机制在后台纠正这一错误了，以至于谷歌花了211分钟才找到问题并且解决问题。

和往常一样，谷歌承诺未来会做得更好，并且表示其“工程师正在改进自动监控，这样如果问题再次出现，工程师将会在用户受到影响之前就得到预警。我们还改进了我们的自动化，以更好地协调同一区域内不同的维护操作，减少必要情况下还原此类操作所需要的时间。”

正如我们在之前提到的，谷歌在面临故障及其产生原因的时候，比其竞争对手更加坦率。但是这家公司似乎也有更多的故障需要披露：《The Register》监测了三大云平台的故障通告，谷歌发布的问题数量比AWS和微软都要多，而这两家公司的云平台规模更大，产品也更多。

来源：ZD至顶网软件频道

0赞

好文章，需要你的鼓励

软件Bug让谷歌云平台再次出现故障

来源：ZD至顶网软件频道

2016

07/14

05:44

分享

点赞

多点数智：当AI重构零售“终局”

多家机器人企业亮相WRC“秀肌肉” NVIDIA Jetson Thor成“标配”

Anthropic CEO：我们每一代模型都赚钱，亏损是因扩展定律，和云不同，模型API业务不会商品化，一亿美金挖人只为几行代码

OpenAI GPT-5突破性安全架构：当AI学会"思考"后如何确保不越界

从 “人工主导” 到 “AI 赋能”：2025 测试行业三大趋势与企业应对策略

EVOLVE 2025｜Cloudera重塑数据底座“基本盘” 加速AI“增长飞轮”

EVOLVE 2025｜跨越数据主权与云弹性 Cloudera“融合三部曲”定义AI转型“四重境界”

ChatGPT-5如何加速人类认知能力的衰退

从TB级数据到智能洞察：真实AI可观测性架构实践

大科技公司AI投资回报差异巨大的原因

高通高管详述汽车、物联网等领域增长计划

ChatGPT重新将4o作为选项带回，因为用户对其念念不忘

构建智能时代数据基石，闪迪带着系统级创新奔赴而来

专访DeepMind CEO：我们距离实现AGI只需5-10年

谷歌被罚款35位数！

变电站设备巡视基本要求

与生成式AI同行，存储的未来要义

数据中心正常运行时间的最大威胁及其应对方法

Gemini Live：足以秒杀Siri，却仍有明显瑕疵

为AI数据提供加速度，Solidigm全新超高速PCIe 5.0 SSD来了！

IEEE发布报告：SSD与HDD技术路线图向何处去，成本说了算

谷歌CEO谈云业务、Gemini AI开发者以及与Oracle合作关系

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: