自从新冠肺炎疫情在全球开始大流行以来,微软的高管们一直在发声,介绍该公司在努力增加云容量方面的最新进展。6月16日,微软介绍了更多关于这方面工作的详细信息,包括该公司是如何在今年春季的需求暴增之后,努力支持基于Azure 的Teams服务的一些详细信息。
微软的高管们已经介绍过微软对急救人员、医疗工作者和其他一线工作者优先的策略。他们分享过一些该公司如何对不太必要的服务进行节流的信息。他们还公开承认供应链方面存在的挑战导致某些数据中心组件短缺,进一步加剧了满足云服务需求的难度。
今天,微软的高管们表示,微软数据中心的员工已经一直在全天候工作,安装新的服务器(同时保持彼此之间的距离不少于六英尺)。微软首先在灾情最严重的地区增加了新服务器,并且一天24小时不间断地在安装新的硬件机架。
他们还表示,微软已经将该公司的一根海底电缆的容量翻了一番,该电缆横跨大西洋,传输各种数据,并且“与另一根海底电缆的所有者进行了协商,以增加容量。”他们还补充表示,工程师们将在两周内将America Europe Connect电缆的容量增加两倍。
与此同时,该公司的高管们表示,产品团队检查了运行在Azure上所有的微软服务,以便为需求更大的热门服务释放更多的容量,例如Teams、Office、Windows Virtual Desktop、Azure Active Directory的Application Proxy和Xbox。在某些情况下,工程师们重写了代码以提高效率,这有点类似于他们对视频流处理的做法——该公司的高管们表示,在一个周末的突击之后,它们的效率提高了十倍。
微软的高管们表示,Teams将其保留的容量分配到其他数据中心区域,采用这种策略的流程通常需要数月之间,而现在不得不在一周之内就完成了。此外,微软Azure Wide Area Network团队在两个月内为承载了该公司数据的光纤网络增加了110Tb的容量,并增加了十二个新的边缘计算站点,这些站点将这个网络连接到属于本地互联网供应商的基础架构上,以帮助减少网络拥塞。
微软的高管们表示,该公司还转移了自己内部的Azure工作负载,以躲避全球需求高峰,并转移了来自高需求地区的流量。在消费者方面,微软已经将游戏工作负载从英国和亚洲的高需求数据中心移出,并致力于减少一天中高峰时段的带宽使用。
微软还被迫升级了其预测模型,以应对新冠肺炎疫情大流行引起的云需求激增。微软为其多种预测模型技术(ARIMA、Additive、Multiplicative、Logarithmic)增加了一些基本的国家/地区上限,以避免过度预测。该公司还调整了模型,根据每个行业和地理区域的使用情况考虑拐点和增长模式,同时增加了关于新冠肺炎疫情对各国造成影响的外部数据源。
微软的高管们表示:“在整个过程之中,我们谨慎行事并且倾向于过度配置,但是随着使用模式的稳定,我们还是会根据需要进行调整。”
微软在为Teams扩展计算资源方面也吸取了一些教训。该公司的高管们表示,通过重新部署一些微服务以支持更多的小型计算集群,该公司能够避免一些针对每个集群扩展的局限,加快了部署的速度,并且获得了粒度更细的负载均衡。微软还在运行不同微服务使用的虚拟机或CPU的类型方面变得更加灵活,这样该公司可以专注于总体计算能力或者内存,增加每个区域中Azure资源使用效率。而且工程师们能够通过减少CPU花费在生成化身上的时间等方式优化服务代码本身。
微软增加了新的路由策略以利用空闲容量。该公司的高管们表示,呼叫和会议流量被路由到多个区域以应对流量激增,并且在一天中各个时段的负载均衡帮助微软避免了广域网节流。通过使用Azure Front Door,微软能够针对每个国家/地区进行流量路由。而且,该公司对缓存和存储进行了多项改进,最终帮助实现了有效载荷规模减少了65%,反序列化时间减少了40%,序列化时间减少了20%。
微软还调整了公司的突发事件管理策略。把突发事件管理的轮换从每周一次改为每天一次。它引入了来自整个公司的、更多的突发事件管理器,并推迟了所有服务的非关键性调整。
微软的高管们表示,所有这些云容量的扩展都将影响微软构建和维护Teams等各项服务的方式,这些服务都是基于Azure的。“今天,我们只需要更改配置文件就可以做到的事情,在以前可能需要购买新的设备,甚至可能还需要增加新的建筑。”
对于Teams的未来,微软计划使用其Azure Kubernetes Service,从使用虚拟机的部署模式过渡到使用容器的部署模式。该公司的高管们表示,他们希望最大限度地减少REST的使用,以支持更高效的二进制协议,例如gRPC。
据报道,现在微软的客户在某些地区达到Azure容量上限的情况并非始于新冠肺炎疫情大流行——虽然疫情的蔓延让更多的人开始在家工作。去年秋天,就有很多East US2 Azure的用户报告称,由于Azure的容量问题,他们甚至无法启动虚拟机。随着新冠肺炎疫情大流行的不断发展,微软的这些容量提升举措是否能够让关于Azure容量问题的报告在未来不再出现,让我们拭目以待。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。