微软希望为下一代AI基础设施奠定基础,满足从敏捷型初创公司到跨国企业的各种规模公司的需求,为此,微软向Azure Cloud平台引入了一些重大的改进和升级。
微软在近日举行的Ignite 2024大会上宣布推出的基础设施更新,都是为了在功率、性能和成本效率方面为客户提供更多选择,涵盖了从AI加速器、计算机芯片、液体冷却、到数据集成和灵活的云部署等各个方面的进展。
Blackwell即将问世
这次最大的新闻就是Nvidia即将推出最新GPU,即备受期待的Blackwell GPU。尽管有报道称Nvidia的最新加速器仍存在问题,但微软Azure基础设施营销副总裁Omar Khan透露,微软已经开始在推出Azure ND GB200 v6新虚拟机系列之前对新芯片进行联合验证。
Khan表示,它将结合Nvidia GB200 NVL 72机架规模设计和先进的Quantum InfiniBand网络基础设施,从而可以连接“数万个”Blackwell GPU进行AI超级计算。不过,他没有透露新产品的发布日期。
另一方面,客户现在有了各种新的硅片选项,包括新版本的Azure Maia AI加速器和Azure Cobalt CPU,另一个新选项是Azure Boost DPU(如下),这是微软第一个内部数据处理单元,旨在为以数据为中心的工作负载提供高性能和低能耗。Khan表示,它将传统服务器的多个组件整合到一个专用的硅片中,使运行云存储工作负载的功耗降低3倍,性能提高4倍。
微软还推出了一款定制的安全芯片,名为Azure Integrated HSM,一种专用的硬件安全模块,可以把加密和密钥管理交到客户手中。Khan表示,从明年开始,微软计划在全球数据中心部署的每台新服务器中安装Azure Integrated HSM,以提高机密和通用计算工作负载的安全性。
微软即将推出一个名为Azure HBv5的新虚拟机系列,由AMD全新EPYC 9V64H处理器提供支持,专为高性能计算工作负载而设计,据说比最新的裸机和云替代方案快8倍,比本地服务器快35倍。Khan表示,这是因为虚拟机具有每秒7 TB的高带宽内存,将于明年某个时候推出,但客户现在就可以注册预览访问了。
增强的冷却和电力输送
除了芯片,微软还致力于改进让这些处理器冷却运行所需的技术。随着下一代液体冷却“侧架”或用于AI系统的热交换器单元(如下图所示)的推出,微软在这方面的努力得到了回报。这种技术将被部署到微软现有的数据中心,有助于冷却GPU和其他AI加速器,包括来自Nvidia的芯片和微软内部开发的Azure Maia GPU芯片。
冷却芯片有助于节省能源,更高效的电力输送也是如此,这是微软关注的另一个领域。Khan解释说,微软已经与Meta Platforms合作开发了一种新的、分解的电源架,有助于现有数据中心添加更多的AI加速器。
据Khan介绍,每个新机架都提供了400伏的直流电,每个服务器机架可以额外支持35%的AI加速器,此外还支持动态功率调整,可以根据需要扩大或缩小规模,以支持不同类型的AI工作负载。这些新机架已经通过Open Compute Project开源了,所有人都可以从中受益。
数据集成和云部署
在其他公告方面,Khan表示,微软将改进今年早些时候推出的Oracle Database@Azure服务以支持Microsoft Purview,这款新产品可以帮助客户更好地管理和保护他们的Oracle数据,增强数据治理和合规性。
此外,微软一直在和Oracle合作支持另一项新产品。Oracle Exadata Database Service On Exascale Infrastructure on Oracle Database@Azure据称可以为那些需要更灵活的Oracle数据库选项的客户提供超弹性扩展和按使用付费的经济性。随着微软把Oracle Database@Azure可用性扩展到全球总共九个地区,这项服务也将在更多地区推出。
对于有混合云部署要求的客户,微软推出了一项名为Azure Local的云连接基础设施新产品,将Azure Stack功能整合到一个统一的平台中。Azure Stack是Azure Cloud的本地版本,使客户能够从自己的数据中心访问Azure的很多云功能。客户借助Azure Local就可以在戴尔、HPE和联想等厂商经过验证的服务器上运行容器和Azure虚拟桌面,从而帮助他们满足合规性要求。
今年早些时候全面上市的Windows Server 2025也获得了一些新功能,包括简化的升级、增强的安全性、以及对AI和机器学习的支持。预览版中还有一个新的“热修补”订阅服务,可以减少重启次数,从而节省组织的时间。
最后Khan表示,微软正在预览SQL Server 2025,让客户可以访问增强型数据库产品,该产品利用Azure Arch在任何位置提供云敏捷性。新版本旨在支持AI工作负载,集成了AI应用开发工具,并支持检索增强生成模式和矢量搜索功能。
好文章,需要你的鼓励
杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。