微软公开了Azure容量提升计划的更多详情

微软一直在秘密地对其云服务以及基于Azure的Teams的运营方式进行调整,以满足新冠疫情大流行期间的需求。下面是一些详细情况。

自从新冠肺炎疫情在全球开始大流行以来,微软的高管们一直在发声,介绍该公司在努力增加云容量方面的最新进展。6月16日,微软介绍了更多关于这方面工作的详细信息,包括该公司是如何在今年春季的需求暴增之后,努力支持基于Azure 的Teams服务的一些详细信息。

微软的高管们已经介绍过微软对急救人员、医疗工作者和其他一线工作者优先的策略。他们分享过一些该公司如何对不太必要的服务进行节流的信息。他们还公开承认供应链方面存在的挑战导致某些数据中心组件短缺,进一步加剧了满足云服务需求的难度。

今天,微软的高管们表示,微软数据中心的员工已经一直在全天候工作,安装新的服务器(同时保持彼此之间的距离不少于六英尺)。微软首先在灾情最严重的地区增加了新服务器,并且一天24小时不间断地在安装新的硬件机架。

他们还表示,微软已经将该公司的一根海底电缆的容量翻了一番,该电缆横跨大西洋,传输各种数据,并且“与另一根海底电缆的所有者进行了协商,以增加容量。”他们还补充表示,工程师们将在两周内将America Europe Connect电缆的容量增加两倍。

与此同时,该公司的高管们表示,产品团队检查了运行在Azure上所有的微软服务,以便为需求更大的热门服务释放更多的容量,例如Teams、Office、Windows Virtual Desktop、Azure Active Directory的Application Proxy和Xbox。在某些情况下,工程师们重写了代码以提高效率,这有点类似于他们对视频流处理的做法——该公司的高管们表示,在一个周末的突击之后,它们的效率提高了十倍。

微软的高管们表示,Teams将其保留的容量分配到其他数据中心区域,采用这种策略的流程通常需要数月之间,而现在不得不在一周之内就完成了。此外,微软Azure Wide Area Network团队在两个月内为承载了该公司数据的光纤网络增加了110Tb的容量,并增加了十二个新的边缘计算站点,这些站点将这个网络连接到属于本地互联网供应商的基础架构上,以帮助减少网络拥塞。

微软的高管们表示,该公司还转移了自己内部的Azure工作负载,以躲避全球需求高峰,并转移了来自高需求地区的流量。在消费者方面,微软已经将游戏工作负载从英国和亚洲的高需求数据中心移出,并致力于减少一天中高峰时段的带宽使用。

微软还被迫升级了其预测模型,以应对新冠肺炎疫情大流行引起的云需求激增。微软为其多种预测模型技术(ARIMA、Additive、Multiplicative、Logarithmic)增加了一些基本的国家/地区上限,以避免过度预测。该公司还调整了模型,根据每个行业和地理区域的使用情况考虑拐点和增长模式,同时增加了关于新冠肺炎疫情对各国造成影响的外部数据源。

微软的高管们表示:“在整个过程之中,我们谨慎行事并且倾向于过度配置,但是随着使用模式的稳定,我们还是会根据需要进行调整。”

微软在为Teams扩展计算资源方面也吸取了一些教训。该公司的高管们表示,通过重新部署一些微服务以支持更多的小型计算集群,该公司能够避免一些针对每个集群扩展的局限,加快了部署的速度,并且获得了粒度更细的负载均衡。微软还在运行不同微服务使用的虚拟机或CPU的类型方面变得更加灵活,这样该公司可以专注于总体计算能力或者内存,增加每个区域中Azure资源使用效率。而且工程师们能够通过减少CPU花费在生成化身上的时间等方式优化服务代码本身。

微软增加了新的路由策略以利用空闲容量。该公司的高管们表示,呼叫和会议流量被路由到多个区域以应对流量激增,并且在一天中各个时段的负载均衡帮助微软避免了广域网节流。通过使用Azure Front Door,微软能够针对每个国家/地区进行流量路由。而且,该公司对缓存和存储进行了多项改进,最终帮助实现了有效载荷规模减少了65%,反序列化时间减少了40%,序列化时间减少了20%。

微软还调整了公司的突发事件管理策略。把突发事件管理的轮换从每周一次改为每天一次。它引入了来自整个公司的、更多的突发事件管理器,并推迟了所有服务的非关键性调整。

微软的高管们表示,所有这些云容量的扩展都将影响微软构建和维护Teams等各项服务的方式,这些服务都是基于Azure的。“今天,我们只需要更改配置文件就可以做到的事情,在以前可能需要购买新的设备,甚至可能还需要增加新的建筑。”

对于Teams的未来,微软计划使用其Azure Kubernetes Service,从使用虚拟机的部署模式过渡到使用容器的部署模式。该公司的高管们表示,他们希望最大限度地减少REST的使用,以支持更高效的二进制协议,例如gRPC。

据报道,现在微软的客户在某些地区达到Azure容量上限的情况并非始于新冠肺炎疫情大流行——虽然疫情的蔓延让更多的人开始在家工作。去年秋天,就有很多East US2 Azure的用户报告称,由于Azure的容量问题,他们甚至无法启动虚拟机。随着新冠肺炎疫情大流行的不断发展,微软的这些容量提升举措是否能够让关于Azure容量问题的报告在未来不再出现,让我们拭目以待。

来源:ZDNet

0赞

好文章,需要你的鼓励

2020

06/17

17:18

分享

点赞

邮件订阅