微软提供云服务故障的初步报告

根据对该事故的初步分析，微软将对在9月4日受到故障影响的客户提供补偿，并将努力提升其云存储的弹性。

至顶网软件频道消息：微软已经对9月4日影响全球客户的故障发布了一份初步根本原因分析（RCA）报告。Azure工程团队正在继续调查此事件，并表示他们将在"未来几周内"提供更详细的分析。

微软的官员们在这份分析报告中表示，受到影响的客户将在10月份的账单中，根据微软Azure服务水平协议（Microsoft Azure Service Level Agreement）得到相应的补偿。

9月4日，正如之前在博客的文章中所述，微软在美国中南部的数据中心附近出现了一次雷击，很多Azure服务出现了故障，需要通过Azure 动态目录（Azure Active Directory）进行身份认证的Office 365也受到影响，此次事件的影响波及到了微软全球的很多客户。

微软的分析报告总结表示，风暴导致"电力系统供应的波动，导致电压骤升。"电压的骤升导致一个Azure数据中心切换至发电机供电，并关闭了该数据中心的制冷系统，但该中心配备有浪涌抑制器。该数据中心仍然通过冷却系统中与负载相关的热缓冲器维持所需的工作温度，但是等到缓冲器作用耗尽，温度就出现了升高，设备就出现了自动关闭。

一些硬件在关闭之前就已经被损坏，包括"大量存储服务器"以及其他网络设备和电源单元。现场团队开始尝试恢复基础架构，这意味着更换故障硬件，将服务器迁移到健康的服务器上并检查数据是否已经损坏。

对于那些想知道为什么微软的数据中心没有在故障中转移到备份站点的人："当时做出的决定是为了恢复数据而不是转移到另一个数据中心，因为由于地理复制的异步特性，故障转移会导致部分数据丢失。"

关闭数据中心会影响许多依赖于该数据中心内存储服务器的Azure服务。受影响的服务包括：torage、虚拟机（Virtual Machines）、Application Insights、认知服务和自定义视觉API（Cognitive Services & Custom Vision API）、备份（Backup）、应用程序服务（以及用于Linux的应用程序服务和用于容器的Web应用程序）、用于MySQL的Azure数据库、SQL数据库、Azure自动化（Azure Automation）、站点恢复（Site Recovery），Redis缓存（Redis Cache）、Cosmos数据库、流分析（Stream Analytics）、媒体服务（Media Services）、Azure资源管理器（Azure Resource Manager）、Azure VPN网关、PostgreSQL、Application Insights 、Azure机器学习工作室、Azure搜索、数据工厂、HDInsight、物联网中心、分析服务、密钥库、日志分析、Azure监视器、Azure计划程序、逻辑应用程序、Databricks、ExpressRoute、容器注册表（Container Registry）、应用程序网关（Application Gateway）、服务总线（Service Bus）、事件中心（Event Hub）、Azure Portal IaaS Experiences-- Bot服务、Azure批处理、Service Fabric和Visual Studio Team Services（VSTS）。

微软表示"这些服务中的绝大部分在协调世界时9月5日的11:00都已经恢复了"，但是也承认到了9月7日的8:40才完全解决这些问题。

为什么美国中南部地区以外的客户也会受到这一系列事件的影响？据该帖子称，"Azure Service Manager的弹性不足"，它采用的是"经典"资源类型的运营管理服务。微软的高管们表示，"虽然ASM是一项全球服务，但它不支持自动故障转移。"由于对ASM和其他相关服务的各种依赖性，美国中南部地区以外的Azure资源管理器服务也受到了影响。

来源：ZDNet

0赞

好文章，需要你的鼓励

微软提供云服务故障的初步报告

来源：ZDNet

2018

09/18

11:43

分享

点赞

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

2026年软件定价大洗牌：IT领导者必须知道的关键变化

Linux 在 2026 年将势不可挡，但一个开源传奇可能难以为继

CES 2026趋势展望：全球最大科技展五大热门话题预测

人工智能时代为何编程技能比以往更重要

AI颠覆云优先战略：混合计算成为唯一出路

谷歌发布JAX-Privacy 1.0：大规模差分隐私机器学习工具库

谷歌量子AI发布新型优化算法DQI：量子计算优化领域的重大突破

缓解电动汽车里程焦虑：简单AI模型如何预测充电桩可用性

Titans + MIRAS：让AI拥有长期记忆能力

Gemini为STOC 2026大会理论计算机科学家提供自动化反馈

夸克AI眼镜持续升级：首次OTA，支持89种语言翻译

Microsoft 在亚洲测试 M365 涨价 45%，以确保用户享受 AI 功能

微软开源旗下的Phi-4小型语言模型

微软打造的迷你AI PC问世

微软计划在2025财年斥资800亿美元建设人工智能数据中心

让实时互动和AI，同频共振

微软发布主要使用合成数据训练的Phi-4语言模型

微软预览新型节水数据中心设计

生产力！AI生产力！全新AI生产力！

微软Ignite大会展现企业AI的多样化形态

Azure AI Week 直播课表公布，12月10 -12日线上见

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: