自从新冠肺炎疫情在全球开始大流行以来,微软的高管们一直在发声,介绍该公司在努力增加云容量方面的最新进展。6月16日,微软介绍了更多关于这方面工作的详细信息,包括该公司是如何在今年春季的需求暴增之后,努力支持基于Azure 的Teams服务的一些详细信息。
微软的高管们已经介绍过微软对急救人员、医疗工作者和其他一线工作者优先的策略。他们分享过一些该公司如何对不太必要的服务进行节流的信息。他们还公开承认供应链方面存在的挑战导致某些数据中心组件短缺,进一步加剧了满足云服务需求的难度。
今天,微软的高管们表示,微软数据中心的员工已经一直在全天候工作,安装新的服务器(同时保持彼此之间的距离不少于六英尺)。微软首先在灾情最严重的地区增加了新服务器,并且一天24小时不间断地在安装新的硬件机架。
他们还表示,微软已经将该公司的一根海底电缆的容量翻了一番,该电缆横跨大西洋,传输各种数据,并且“与另一根海底电缆的所有者进行了协商,以增加容量。”他们还补充表示,工程师们将在两周内将America Europe Connect电缆的容量增加两倍。
与此同时,该公司的高管们表示,产品团队检查了运行在Azure上所有的微软服务,以便为需求更大的热门服务释放更多的容量,例如Teams、Office、Windows Virtual Desktop、Azure Active Directory的Application Proxy和Xbox。在某些情况下,工程师们重写了代码以提高效率,这有点类似于他们对视频流处理的做法——该公司的高管们表示,在一个周末的突击之后,它们的效率提高了十倍。
微软的高管们表示,Teams将其保留的容量分配到其他数据中心区域,采用这种策略的流程通常需要数月之间,而现在不得不在一周之内就完成了。此外,微软Azure Wide Area Network团队在两个月内为承载了该公司数据的光纤网络增加了110Tb的容量,并增加了十二个新的边缘计算站点,这些站点将这个网络连接到属于本地互联网供应商的基础架构上,以帮助减少网络拥塞。
微软的高管们表示,该公司还转移了自己内部的Azure工作负载,以躲避全球需求高峰,并转移了来自高需求地区的流量。在消费者方面,微软已经将游戏工作负载从英国和亚洲的高需求数据中心移出,并致力于减少一天中高峰时段的带宽使用。
微软还被迫升级了其预测模型,以应对新冠肺炎疫情大流行引起的云需求激增。微软为其多种预测模型技术(ARIMA、Additive、Multiplicative、Logarithmic)增加了一些基本的国家/地区上限,以避免过度预测。该公司还调整了模型,根据每个行业和地理区域的使用情况考虑拐点和增长模式,同时增加了关于新冠肺炎疫情对各国造成影响的外部数据源。
微软的高管们表示:“在整个过程之中,我们谨慎行事并且倾向于过度配置,但是随着使用模式的稳定,我们还是会根据需要进行调整。”
微软在为Teams扩展计算资源方面也吸取了一些教训。该公司的高管们表示,通过重新部署一些微服务以支持更多的小型计算集群,该公司能够避免一些针对每个集群扩展的局限,加快了部署的速度,并且获得了粒度更细的负载均衡。微软还在运行不同微服务使用的虚拟机或CPU的类型方面变得更加灵活,这样该公司可以专注于总体计算能力或者内存,增加每个区域中Azure资源使用效率。而且工程师们能够通过减少CPU花费在生成化身上的时间等方式优化服务代码本身。
微软增加了新的路由策略以利用空闲容量。该公司的高管们表示,呼叫和会议流量被路由到多个区域以应对流量激增,并且在一天中各个时段的负载均衡帮助微软避免了广域网节流。通过使用Azure Front Door,微软能够针对每个国家/地区进行流量路由。而且,该公司对缓存和存储进行了多项改进,最终帮助实现了有效载荷规模减少了65%,反序列化时间减少了40%,序列化时间减少了20%。
微软还调整了公司的突发事件管理策略。把突发事件管理的轮换从每周一次改为每天一次。它引入了来自整个公司的、更多的突发事件管理器,并推迟了所有服务的非关键性调整。
微软的高管们表示,所有这些云容量的扩展都将影响微软构建和维护Teams等各项服务的方式,这些服务都是基于Azure的。“今天,我们只需要更改配置文件就可以做到的事情,在以前可能需要购买新的设备,甚至可能还需要增加新的建筑。”
对于Teams的未来,微软计划使用其Azure Kubernetes Service,从使用虚拟机的部署模式过渡到使用容器的部署模式。该公司的高管们表示,他们希望最大限度地减少REST的使用,以支持更高效的二进制协议,例如gRPC。
据报道,现在微软的客户在某些地区达到Azure容量上限的情况并非始于新冠肺炎疫情大流行——虽然疫情的蔓延让更多的人开始在家工作。去年秋天,就有很多East US2 Azure的用户报告称,由于Azure的容量问题,他们甚至无法启动虚拟机。随着新冠肺炎疫情大流行的不断发展,微软的这些容量提升举措是否能够让关于Azure容量问题的报告在未来不再出现,让我们拭目以待。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。