凭借自主研究的Graviton 4 Arm服务器处理器,亚马逊云科技已经成功打造出一款能够与AMD x86 CPU、Ampere Computing以及英伟达Arm CPU等各类顶尖产品相媲美的CPU产品,且拥有相当突出的性价比。这款产品不仅将为亚马逊旗下各业务部门服务,更将通过亚马逊云科技的IT基础设施面向租赁客户开放。
如今,Graviton 4处理器的内存容量迎来提升,这反过来将使其能够承载更多受到内存容量与内存带宽限制的工作负载。
Graviton 4处理器最初亮相于2023年11月,基于Arm的“Demeter”Neoverse V2核心。关于Graviton 4处理器,我们尚有许多不甚了解的细节。在本文中,我们将努力将已知的信息拼凑起来,尝试填补空白,从而更全面地理解这款Arm CPU与其前代产品以及数据中心领域各竞争对手x86与Arm芯片之间的优势对比。下面来看:

如大家所见,亚马逊云科技的Annapurna Labs部门开发出“Nitro”DPU以及Graviton CPU、用于AI模型训练的“Trainium”XPU以及用于AI推理工作的“Inferentia”XPU。这不仅代表其在设计方面取得了长足进步,更让芯片拥有实惠的价格以为亚马逊云科技扩大利润空间。
注意:上图中以红色斜粗体标记的条目为我们的估计值。
相较于其前代Graviton 3,Graviton 4芯片搭载有速度更快、性能更强且数量更多的核心。此外,亚马逊云科技还首次创建了双插槽NUMA内存集群,以使用192个以2.8 GHz运行的核心承担工作负载。最初的Graviton 4芯片配备有1.5 TB的DDR5主内存,运行频率为5.6 GHz。Gravtion 3使用4.8 GHz DDR5内存,只有8条内存通道,Gravtion 4则有12个,因此基于这些通道获得了额外50%的容量与带宽提升,也借助速度更快的DDR5内存又实现了16.7%的性能增长。三者相加,每个Gravtion 4插槽可提供537.6 GB/秒的带宽,已经与市面上各类顶尖x86或Arm CPU的指标看齐,且完全能够满足多种无法被轻松移植至GPU、只能在CPU上运行的高性能计算工作负载的需求。
Graviton 4 R8g实例于今年7月初正式上市,当时我们也进行过详细报道。该实例可提供1到96个vCPU,每个Graviton 4插槽对应的内存容量从8 GB到768 GB;网络带宽可滑动调整,每实例最高可达40 Gb/秒,弹性块存储(EBS)也可扩展至每插槽30 Gb/秒。
正如我们在7月时所介绍,我们认为双插槽Graviton 4实例的情况比较特殊,因为双插槽设备的网络带宽只有50 Gb/秒,EBS带宽只有40 Gb/秒。此外,也不存在核心数量在96个到192个之间的实例选项,这也跟客户对于Graviton 4双插槽系统的现实需求存在错位。也许,亚马逊云科技只打算在跨越NUMA障碍之后向客户销售满配版设备。
下图所示,为此番推出的全新X8g内存增强型实例与7月推出的现有R8g实例间的比对:

亚马逊云科技尚未公布内存增强型Graviton 4实例的定价。为了找到答案,我们研究了具有不同内存容量的Graviton 3实例(准确来说,是基础R7g与M7g Graviton 3实例的双倍增强内存),并计算了内存差异与价格差异。结果表明,以4.8 GHz运行的增量内存每8 GB容量每小时的成本为0.0031875美元。这里我们采信这个数字,照此提升Graviton 4内存增强之后的运行速度(在5.6 GHz条件下性能提高了16.7%),而后计算出上表中X8g实例的按需租赁成本。可以想象,额外的内存容量肯定不是免费的,但我们估计这可是才是亚马逊云科技为X8g实例收取费用的合理方式。而如果根据这样的内存定价将R8g实例上的内存扩展至X8g实例的大小(设备上的所有其他功能均相同),则会发现X8g实例的租赁价格将比R8g实例高出50.5%。
所以如果我们是亚马逊云科技,我们绝对会选择这种方式。
自2018年11月Graviton 1芯片首次亮相以来,Graviton处理器的各种顶级实例配置如下图所示:

早在今年7月,我们就估算过节点中带有本地闪存的常规Graviton 4实例的年度按需租赁成本,以红色粗斜体显示。我们并不是想暗示客户会以这种方式购买这些实例,只是想要表明其每小时成本“肯定会增加”。
蓝色粗斜体部分,显示了我们为新的顶级X8g实例估算出的年度按需租赁成本。其基本思路在于,更大的内存不会免费,而客户又确实有使用X8g实例的需求。另外根据亚马逊云科技的介绍,我们认为许多使用此前Graviton 2和Graviton 3实例的客户也会认真考虑转向内存增强型Graviton 4实例。无法在Graviton 2和Graviton 3处理器上运行的应用程序(某些内存密集型高性能计算应用程序,以及内存分析与数据库负载)也将无法在Graviton 4实例上运行。
大内存版Graviton 4处理器还有一个有趣的用例——很多朋友可能已经猜到了,就是供Annapurna Labs部门用于设计下一代Graviton CPU。亚马逊云科技首席布道师(属于公关负责人的一种)Jeff Barr在宣布内存增强型Graviton 4芯片的博文中发布了以下图表:

此图展示了亚马逊云科技在为Graviton 4封装设计I/O芯片和计算芯片时,所启动的Graviton实例数量。初始基线略低于2000个实例,但随后快速增长,每日和每周峰值高达这一基准水平的2倍。而随着I/O芯片和计算芯片的设计进入流片阶段,虚拟测试和设计验证的强度变得越来越高,基线开始接近4000实例同时运行,峰值高达8000,甚至出现过1.1万个并发实例(右侧最高处)的极端情况。
可以看到,Graviton 4 I/O芯片于2022年第四季度流片,计算芯片则于2023年第一季度流片,这也是亚马逊云科技透露的一条有趣信息。
然而,亚马逊云科技并没有说明X8g的额外内存将如何提高EDA性能、或者能否减少客户需要运行的实例数量。
据我们所知,EDA实际是一种单核、单作业的令人尴尬的并行工作负载。也就是说,在一项工作当中投入的核心数量,就相当于用户能够在可行设计空间中测试的场景和配置数量。例如,Barr提到上图中的峰值“代表有数十万个核心同时运行”。此外,据我们所知EDA软件是按核心数量授权的,因此核心性能越强(Graviton 4核心肯定在Demeter V2设计的加持下实现了性能增长)意味着完成工作的速度更快,而每插槽更多核心则意味着用户能够在每个实例上部署更多任务。这就是最常规的EDA成本与时间投入方式。
能看到Graviton 4实例如何为Graviton 6处理器的设计工作加速真的非常有趣……也许亚马逊云科技可以考虑发布一份案例研究,我们也将对此保持关注。
而对于那些仍在使用Graviton 2 X2gd实例的高性能计算客户来说,Graviton 4每个核心的二级缓存容量都达到了原来的两倍(2 MB对比1 MB),内存带宽是原来的2.6倍,每核心计算性能提高了60%。X8g实例则将内存容量和核心数量提升至原来的3倍,EBS带宽与以太网带宽也达到原来的2倍。所有这一切,都将帮助芯片设计人员更快、更好地完成更多EDA工作,并有望降低每个工作单位的执行成本。
好文章,需要你的鼓励
2025年,企业技术高管面临巨大压力,需要帮助企业从持续的AI投入中获得回报。大多数高管取得了进展,完善了项目优先级排序方法。然而,CIO仍面临AI相关问题。支离破裂的AI监管环境和宏观经济阻力将继续推动技术高管保持谨慎态度。随着AI采用增长的影响不断显现,一些CIO预期明年将带来劳动力策略变化。
微软亚洲研究院与清华大学联合提出双向感知塑造技术,通过创新的两阶段训练方法解决AI视觉理解中的关键问题。该技术让AI学会正确聚焦重要视觉信息,避免被无关内容误导。仅用1.3万训练样本就在八个基准测试中平均提升8.2%性能,超越使用数十万样本的专门模型,为AI视觉推理能力提升开辟新路径。
FinOps基金会周四更新了其FinOps开放成本和使用规范云成本管理工具,新版本1.3更好地支持多供应商工作流。该版本新增了合同承诺和协商协议数据集,增加了跨工作负载成本分摊跟踪列,以及云支出和使用报告时效性和完整性的元数据可见性。随着云和AI采用推动企业IT预算增长,技术供应商正在关注将成本与价值联系起来的努力。大型企业通常使用三到四家云供应商,小企业可能使用两家,同时还有数据中心、SaaS和许可等服务。
上海交通大学研究团队开发了TimeBill框架,解决大语言模型在实时应用中的时间不确定性问题。该系统通过精确预测回答长度和执行时间,动态调整AI记忆管理策略,确保在规定时间内完成任务的同时保持回答质量。实验显示TimeBill在各种时间预算下都能实现最佳的完成率与性能平衡,为AI在自动驾驶、工业控制等安全关键领域的应用提供了重要技术支撑。