微软希望为下一代AI基础设施奠定基础,满足从敏捷型初创公司到跨国企业的各种规模公司的需求,为此,微软向Azure Cloud平台引入了一些重大的改进和升级。
微软在近日举行的Ignite 2024大会上宣布推出的基础设施更新,都是为了在功率、性能和成本效率方面为客户提供更多选择,涵盖了从AI加速器、计算机芯片、液体冷却、到数据集成和灵活的云部署等各个方面的进展。
Blackwell即将问世
这次最大的新闻就是Nvidia即将推出最新GPU,即备受期待的Blackwell GPU。尽管有报道称Nvidia的最新加速器仍存在问题,但微软Azure基础设施营销副总裁Omar Khan透露,微软已经开始在推出Azure ND GB200 v6新虚拟机系列之前对新芯片进行联合验证。
Khan表示,它将结合Nvidia GB200 NVL 72机架规模设计和先进的Quantum InfiniBand网络基础设施,从而可以连接“数万个”Blackwell GPU进行AI超级计算。不过,他没有透露新产品的发布日期。
另一方面,客户现在有了各种新的硅片选项,包括新版本的Azure Maia AI加速器和Azure Cobalt CPU,另一个新选项是Azure Boost DPU(如下),这是微软第一个内部数据处理单元,旨在为以数据为中心的工作负载提供高性能和低能耗。Khan表示,它将传统服务器的多个组件整合到一个专用的硅片中,使运行云存储工作负载的功耗降低3倍,性能提高4倍。
微软还推出了一款定制的安全芯片,名为Azure Integrated HSM,一种专用的硬件安全模块,可以把加密和密钥管理交到客户手中。Khan表示,从明年开始,微软计划在全球数据中心部署的每台新服务器中安装Azure Integrated HSM,以提高机密和通用计算工作负载的安全性。
微软即将推出一个名为Azure HBv5的新虚拟机系列,由AMD全新EPYC 9V64H处理器提供支持,专为高性能计算工作负载而设计,据说比最新的裸机和云替代方案快8倍,比本地服务器快35倍。Khan表示,这是因为虚拟机具有每秒7 TB的高带宽内存,将于明年某个时候推出,但客户现在就可以注册预览访问了。
增强的冷却和电力输送
除了芯片,微软还致力于改进让这些处理器冷却运行所需的技术。随着下一代液体冷却“侧架”或用于AI系统的热交换器单元(如下图所示)的推出,微软在这方面的努力得到了回报。这种技术将被部署到微软现有的数据中心,有助于冷却GPU和其他AI加速器,包括来自Nvidia的芯片和微软内部开发的Azure Maia GPU芯片。
冷却芯片有助于节省能源,更高效的电力输送也是如此,这是微软关注的另一个领域。Khan解释说,微软已经与Meta Platforms合作开发了一种新的、分解的电源架,有助于现有数据中心添加更多的AI加速器。
据Khan介绍,每个新机架都提供了400伏的直流电,每个服务器机架可以额外支持35%的AI加速器,此外还支持动态功率调整,可以根据需要扩大或缩小规模,以支持不同类型的AI工作负载。这些新机架已经通过Open Compute Project开源了,所有人都可以从中受益。
数据集成和云部署
在其他公告方面,Khan表示,微软将改进今年早些时候推出的Oracle Database@Azure服务以支持Microsoft Purview,这款新产品可以帮助客户更好地管理和保护他们的Oracle数据,增强数据治理和合规性。
此外,微软一直在和Oracle合作支持另一项新产品。Oracle Exadata Database Service On Exascale Infrastructure on Oracle Database@Azure据称可以为那些需要更灵活的Oracle数据库选项的客户提供超弹性扩展和按使用付费的经济性。随着微软把Oracle Database@Azure可用性扩展到全球总共九个地区,这项服务也将在更多地区推出。
对于有混合云部署要求的客户,微软推出了一项名为Azure Local的云连接基础设施新产品,将Azure Stack功能整合到一个统一的平台中。Azure Stack是Azure Cloud的本地版本,使客户能够从自己的数据中心访问Azure的很多云功能。客户借助Azure Local就可以在戴尔、HPE和联想等厂商经过验证的服务器上运行容器和Azure虚拟桌面,从而帮助他们满足合规性要求。
今年早些时候全面上市的Windows Server 2025也获得了一些新功能,包括简化的升级、增强的安全性、以及对AI和机器学习的支持。预览版中还有一个新的“热修补”订阅服务,可以减少重启次数,从而节省组织的时间。
最后Khan表示,微软正在预览SQL Server 2025,让客户可以访问增强型数据库产品,该产品利用Azure Arch在任何位置提供云敏捷性。新版本旨在支持AI工作负载,集成了AI应用开发工具,并支持检索增强生成模式和矢量搜索功能。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。