凭借自主研究的Graviton 4 Arm服务器处理器,亚马逊云科技已经成功打造出一款能够与AMD x86 CPU、Ampere Computing以及英伟达Arm CPU等各类顶尖产品相媲美的CPU产品,且拥有相当突出的性价比。这款产品不仅将为亚马逊旗下各业务部门服务,更将通过亚马逊云科技的IT基础设施面向租赁客户开放。
如今,Graviton 4处理器的内存容量迎来提升,这反过来将使其能够承载更多受到内存容量与内存带宽限制的工作负载。
Graviton 4处理器最初亮相于2023年11月,基于Arm的“Demeter”Neoverse V2核心。关于Graviton 4处理器,我们尚有许多不甚了解的细节。在本文中,我们将努力将已知的信息拼凑起来,尝试填补空白,从而更全面地理解这款Arm CPU与其前代产品以及数据中心领域各竞争对手x86与Arm芯片之间的优势对比。下面来看:

如大家所见,亚马逊云科技的Annapurna Labs部门开发出“Nitro”DPU以及Graviton CPU、用于AI模型训练的“Trainium”XPU以及用于AI推理工作的“Inferentia”XPU。这不仅代表其在设计方面取得了长足进步,更让芯片拥有实惠的价格以为亚马逊云科技扩大利润空间。
注意:上图中以红色斜粗体标记的条目为我们的估计值。
相较于其前代Graviton 3,Graviton 4芯片搭载有速度更快、性能更强且数量更多的核心。此外,亚马逊云科技还首次创建了双插槽NUMA内存集群,以使用192个以2.8 GHz运行的核心承担工作负载。最初的Graviton 4芯片配备有1.5 TB的DDR5主内存,运行频率为5.6 GHz。Gravtion 3使用4.8 GHz DDR5内存,只有8条内存通道,Gravtion 4则有12个,因此基于这些通道获得了额外50%的容量与带宽提升,也借助速度更快的DDR5内存又实现了16.7%的性能增长。三者相加,每个Gravtion 4插槽可提供537.6 GB/秒的带宽,已经与市面上各类顶尖x86或Arm CPU的指标看齐,且完全能够满足多种无法被轻松移植至GPU、只能在CPU上运行的高性能计算工作负载的需求。
Graviton 4 R8g实例于今年7月初正式上市,当时我们也进行过详细报道。该实例可提供1到96个vCPU,每个Graviton 4插槽对应的内存容量从8 GB到768 GB;网络带宽可滑动调整,每实例最高可达40 Gb/秒,弹性块存储(EBS)也可扩展至每插槽30 Gb/秒。
正如我们在7月时所介绍,我们认为双插槽Graviton 4实例的情况比较特殊,因为双插槽设备的网络带宽只有50 Gb/秒,EBS带宽只有40 Gb/秒。此外,也不存在核心数量在96个到192个之间的实例选项,这也跟客户对于Graviton 4双插槽系统的现实需求存在错位。也许,亚马逊云科技只打算在跨越NUMA障碍之后向客户销售满配版设备。
下图所示,为此番推出的全新X8g内存增强型实例与7月推出的现有R8g实例间的比对:

亚马逊云科技尚未公布内存增强型Graviton 4实例的定价。为了找到答案,我们研究了具有不同内存容量的Graviton 3实例(准确来说,是基础R7g与M7g Graviton 3实例的双倍增强内存),并计算了内存差异与价格差异。结果表明,以4.8 GHz运行的增量内存每8 GB容量每小时的成本为0.0031875美元。这里我们采信这个数字,照此提升Graviton 4内存增强之后的运行速度(在5.6 GHz条件下性能提高了16.7%),而后计算出上表中X8g实例的按需租赁成本。可以想象,额外的内存容量肯定不是免费的,但我们估计这可是才是亚马逊云科技为X8g实例收取费用的合理方式。而如果根据这样的内存定价将R8g实例上的内存扩展至X8g实例的大小(设备上的所有其他功能均相同),则会发现X8g实例的租赁价格将比R8g实例高出50.5%。
所以如果我们是亚马逊云科技,我们绝对会选择这种方式。
自2018年11月Graviton 1芯片首次亮相以来,Graviton处理器的各种顶级实例配置如下图所示:

早在今年7月,我们就估算过节点中带有本地闪存的常规Graviton 4实例的年度按需租赁成本,以红色粗斜体显示。我们并不是想暗示客户会以这种方式购买这些实例,只是想要表明其每小时成本“肯定会增加”。
蓝色粗斜体部分,显示了我们为新的顶级X8g实例估算出的年度按需租赁成本。其基本思路在于,更大的内存不会免费,而客户又确实有使用X8g实例的需求。另外根据亚马逊云科技的介绍,我们认为许多使用此前Graviton 2和Graviton 3实例的客户也会认真考虑转向内存增强型Graviton 4实例。无法在Graviton 2和Graviton 3处理器上运行的应用程序(某些内存密集型高性能计算应用程序,以及内存分析与数据库负载)也将无法在Graviton 4实例上运行。
大内存版Graviton 4处理器还有一个有趣的用例——很多朋友可能已经猜到了,就是供Annapurna Labs部门用于设计下一代Graviton CPU。亚马逊云科技首席布道师(属于公关负责人的一种)Jeff Barr在宣布内存增强型Graviton 4芯片的博文中发布了以下图表:

此图展示了亚马逊云科技在为Graviton 4封装设计I/O芯片和计算芯片时,所启动的Graviton实例数量。初始基线略低于2000个实例,但随后快速增长,每日和每周峰值高达这一基准水平的2倍。而随着I/O芯片和计算芯片的设计进入流片阶段,虚拟测试和设计验证的强度变得越来越高,基线开始接近4000实例同时运行,峰值高达8000,甚至出现过1.1万个并发实例(右侧最高处)的极端情况。
可以看到,Graviton 4 I/O芯片于2022年第四季度流片,计算芯片则于2023年第一季度流片,这也是亚马逊云科技透露的一条有趣信息。
然而,亚马逊云科技并没有说明X8g的额外内存将如何提高EDA性能、或者能否减少客户需要运行的实例数量。
据我们所知,EDA实际是一种单核、单作业的令人尴尬的并行工作负载。也就是说,在一项工作当中投入的核心数量,就相当于用户能够在可行设计空间中测试的场景和配置数量。例如,Barr提到上图中的峰值“代表有数十万个核心同时运行”。此外,据我们所知EDA软件是按核心数量授权的,因此核心性能越强(Graviton 4核心肯定在Demeter V2设计的加持下实现了性能增长)意味着完成工作的速度更快,而每插槽更多核心则意味着用户能够在每个实例上部署更多任务。这就是最常规的EDA成本与时间投入方式。
能看到Graviton 4实例如何为Graviton 6处理器的设计工作加速真的非常有趣……也许亚马逊云科技可以考虑发布一份案例研究,我们也将对此保持关注。
而对于那些仍在使用Graviton 2 X2gd实例的高性能计算客户来说,Graviton 4每个核心的二级缓存容量都达到了原来的两倍(2 MB对比1 MB),内存带宽是原来的2.6倍,每核心计算性能提高了60%。X8g实例则将内存容量和核心数量提升至原来的3倍,EBS带宽与以太网带宽也达到原来的2倍。所有这一切,都将帮助芯片设计人员更快、更好地完成更多EDA工作,并有望降低每个工作单位的执行成本。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。