云服务故障的基本对策

其实，云服务也会出现中断故障，这种故障将使整个企业将陷入停顿。

其实，云服务也会出现中断故障。云服务中断故障意味着一个云数据中心或整个地区的基本服务（如存储、计算能力或中间件）中断。随着后端和业务应用程序在云中应用的普及，如今这种故障影响的不仅仅是面向客户的网页和在线商店，所有应用程序都会受到影响，整个企业将陷入停顿，所有员工，无论是财务、人力资源、销售、生产、客户服务还是物流的员工都无法工作。

此外，中断可能不仅仅是暂时的。如果一个数据中心烧坏了，服务器和里面的所有数据也就永远消失了。因此，首席信息官（CIO）、首席信息安全官（CISO）和董事会必须决定在灾难恢复和业务连续性规划中接受哪些风险以及需要解决哪些风险。

传统的业务连续性管理（BCM）涵盖了物理领域的挑战：大量员工的缺席（例如，由于大流行病）或洪水和火灾摧毁了办公大楼和数据中心。云服务中断则是一种新的情况——解决这些问题需要深入理解各种技术和设计模式并将其纳入组织的企业架构。

公共云服务故障

故障发生时，云中断BCM设计必须确保以下资源的可用性。

· 存储和计算等资源

· 数据和应用。

· 云服务应用（除了SaaS应用）的一个特别之处在于，这些应用是以下列业务逻辑和数据的形式组成：

· 基础设施即服务（IaaS）工作负载与虚拟机

· 平台即服务（Platform-as-a-Service）工作负载，包括（不仅仅包括）对象存储或数据库即服务

公共云提供了在更广泛故障出现时的生存功能。尽管如此，IT部门和风险管理人员仍然必须了解这些机制，并为潜在的公共云中断做好准备。我们在下文里就来看看所选定的微软Azure概念，尽管其他云（如GCP或AWS）都非常相似。

Azure划分了分区服务、区域服务和全球永久在线服务（下图）。分区服务在一个数据中心运行——最具代表性的分区服务是Azure虚拟机。如果你订购了这样的虚拟机，Azure就会启动一个虚拟机分配给你。因此，如果这个数据中心发生故障，你的虚拟机就会挂掉。没有任何冗余。

区域服务是第一类有一定冗余的服务。许多Azure中用于存储数据或数据库即服务产品的Azure服务属于这一类。这些区域服务在一个区域内的多个分区运行（因此提供了冗余）。例如，Azure苏黎世区域由苏黎世市附近的三个分区组成。某个本地事件（例如飞机坠毁在一个数据中心）不会导致区域服务的瘫痪。所以，区域服务可以提供有限的韧性。然而，区域服务并不能提供对大规模事件的保护，例如瑞士各地都停电几天。

全球永久在线服务（如DNS或Azure活动目录）则属于另一个档次。Azure保证全球永久在线服务的可用性，无论世界上发生什么事情。客户不需要在全球云中断的情况下计划和准备灾难恢复。不过问题是属于这一类的服务非常少。大多数服务都只是区域性的，甚至只是分区性的，特别是与运行应用程序代码和处理数据有关的服务。

为云中断做准备意味着要在提高韧性的成本与中断的概率和影响之间取得平衡。你是否真的需要区域性或全球性服务？或是分区性服务（加上其他地方的一些备份）就足够了（下图）？所有需要的和使用的服务都能满足这些需求吗？如果一个应用在发生区域性灾难时也必须继续运行，那么很容易知道单个虚拟机显然不可行。在这样的场景里服务SLA和服务描述都不符合业务需求。

增强韧性

在面临云中断的情况下，韧性是至关重要的。当一项服务不能满足韧性需求时，韧性模式其实很简单：就是在不同的分区或区域复制服务。如果一个虚拟机上的应用程序在数据中心挂掉仍然必须继续运行，那么你就需要在一个隔得稍远的第二个数据中心运行另一个虚拟机。如果你要求苏黎世周围的区域停电不影响你的应用程序，那么就必须在日内瓦、芬兰或澳大利亚增加一个虚拟机。只需考虑两个细节：成本和改路由。

在苏黎世数据中心以外的地方运行额外的虚拟机只是为了应付紧急情况，但如果不能针对发来的请求改路由就帮不上忙。解决方案：负载平衡器。负载平衡器是一种区域性服务，即便苏黎世周围的一个数据中心完全崩溃，负载平衡器还是可以继续运行。负载平衡服务在运行初始虚拟机的数据中心崩溃时将流量重新分配到仍在运行的数据中心的虚拟机上。如果你必须在整个区域发生故障时重定向流量，那么诸如DNS或Azure前门（Azure Front Door）等始终在线的服务就是正确的选择。

有些选定的区域服务具有地理冗余功能，可以缓解问题或令问题复杂化。例如，Azure Cosmos数据库服务可以备份到不同区域并从这些备份恢复（下图A），甚至允许工程师将该服务配置为地理冗余（下图B）。

我们看看从两个维度（数据和资源容量）的角度设计故障转移系统（下图）会有所受益的。最昂贵的设计是在两个数据中心建立起运行日常操作的全部容量。一半的虚拟机（和其他容量）运行日常操作，另一半则是闲置的，希望不出故障永远不用这一半闲置的服务和容量。闲置的容量只是为了在故障转移的情况下存在。由于成本问题，一众公司只会对最关键的任务系统实施这种架构。

另一个极端是完全没有留出故障转移的能力。换句话说，IT部门是赌一赌，想靠云供应商有足够的容量来应对灾难情况，从而接受供应商可能并没有应对灾难情况容量的风险，或者只在遥远的数据中心有高延时的容量。当采用这种方法时，你永远不应该忘记一个事实：典型的云中断会影响成千上万的客户。云供应商不可能在同一区域的其他数据中心有这么多没人日常使用（和支付）的闲置虚拟机或服务能力。而且，在这两个极端（所有的东西都有重复的资源或对任何东西都没有容量保留）之间有很多选择。

设计故障转移系统时的第二个维度是数据备份和复制的可用性和及时性。两个主要的复制模式是 “异步复制”和“同步复制”。后一种模式是在确认写操作成功之前更新各个数据中心的所有数据副本。同步复制的好处是，所有的数据副本总是最新的，应用程序可以在第二个数据中心待命并处于活动状态（活动/活动）。

数据中心崩溃不会造成任何数据损失或服务中断。缺点是：由于延迟，可能造成吞吐量损失。最慢的数据中心决定了吞吐量。因此，典型的同步复制是一个区域内的复制，例如，苏黎世周围的各个数据中心，但不是从苏黎世到弗吉尼亚的美东1区域。对于区域之间的复制，异步复制是一个典型的选择。

异步复制意味着云服务（或你的应用程序）在本地区域提交更新；当异步复制服务将更新推送到同一个或另一个大陆的不同区域时，应用程序继续运行。更新传播时的延迟不会损害你的应用程序的性能。然而，发生故障时尚未转发的变化会丢失。第三种，最传统和最便宜的选择是配置定期备份而不是设置复制。在这最后一种情况下，云服务执行备份，例如，每4小时或每天一次。

所以，复制和冗余的选择会影响到一个公司在云计算数据中心中断甚至是区域性云计算中断时的生存能力。事实上，业界公司必须明确他们能接受哪些风险以及要为哪些风险做准备。这里的挑战在于，在后一种情况下如何设计一个一致的灾难恢复架构。云服务有不同的冗余选项。云架构师必须为建立在五个或十个云服务上的应用挖掘各种细节，即使所有的云服务都来自同一个云供应商，也要为云中断做好准备。董事会最终是希望IT部门能够交付云计算的主要营销承诺之一：在云中无服务中断，由于云计算可以提供冗余、复制和备份等神话般的功能。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

云服务故障的基本对策

公共云服务故障

增强韧性

来源：至顶网软件与服务频道

2023

03/02

10:16

分享

点赞

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

数据中心增长与可持续发展并非对立关系

英特尔至强6新品发布，能为数据中心带来哪些改变？

AI 如何重塑数据中心：电力、制冷和基础设施挑战

欧洲云企业测试"冷箱式服务器刀片"系统

2025年数据中心可持续发展的7大重要策略

数据中心将推动全球电力需求激增 - 国际能源署报告

韩国计划打造全球最大人工智能数据中心

数据中心管道设施指南：制冷、效率与可持续性

GDS 据传考虑 DayOne 5亿美元 IPO

为什么液冷技术对数据中心的未来至关重要

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: