大语言模型训练，该怎么选择才能节省成本？

我们认为大语言模型其实是被低估了，当下我们才刚刚感受到它所承载的深远影响。在硬件层、基础设施/基础模型层和应用程序层这三大生态系统区域内，每个区域都有老赢家和新选手。从明年起，我们将看到大语言模型在各个经济区间全面兴起、发挥作用。

时至今日，人们对于在语言模型和推荐系统的训练成本或多或少已经有所耳闻。而这两类工作负载，也成为AI在商业世界中落地的关键支点。参考机器学习系统开发商Cerebras Systems和云计算合作伙伴Cirrascale提供的GPT模型训练系统租赁服务，我们现在已经拿到了部分实际定价，能够核算不同规模下GPT模型的具体训练成本。

这也是我们在AI训练市场上看到的首批此类公开数据。目前参与这部分业务的厂商只有Cerebras、SambaNova Systems、Graphcore以及英特尔的Habana Labs。其中英特尔的Habana Labs似乎有点坚持不住了，已经表示将在接下来的三年时间内（至2025年），通过削减产品线和人员规模节约80到100亿美元的运营成本。

Cerebras和Cirrascale公布了与Jasper的合作伙伴关系，其中恰好提到他们将在四台CS-2超级计算机上执行特定GPT AI训练，并公布了费用信息。作为一家AI应用提供商，Jasper正帮助来自各行各业、不同规模的企业部署大语言模型，借此驱动自身业务。与其他厂商一样，Jasper之前一直在英伟达GPU上训练其AI模型，如今希望能找到一种成本更低、速度更快的模型训练方法，借此优化自身业务收益。

Jasper公司联合创始人兼CEO Dave Rogenmoser表示，公司目前已经拥有近10万家付费客户，他们使用Jasper系统进行博文撰写、营销内容设计、技术手册生成等各类任务。虽然现有大语言模型还无法直接生成完美内容，但只要输入提示正确，其结果的可用率还是能达到70%左右。最重要的是，其效率极高、速度极快，显著加快了客户的内容创建进程。（很多朋友可能没意识到，大部分人其实并不擅长写作，写得也并不快。）

Jasper公司总部位于奥斯汀，公司成立于2021年1月，并在短短5个月后就筹集到了600万美元种子轮融资。不久前，Jasper刚刚完成由Insight Partners领投的1.25亿美元A轮融资，目前公司估值已达15亿美元。除了Jasper这类以大语言模型为基础的服务型初创企业以外，不少老牌软件提供商也在研究要如何使用大语言模型增强自家业务。

Cerebras公司联合创始人兼CEO Andrew Feldman解释道，“我们认为大语言模型其实是被低估了，当下我们才刚刚感受到它所承载的深远影响。”作为Wafer-Scale晶圆级制程先驱，Cerebras同时也成为AI训练硬件领域的新贵。“在硬件层、基础设施/基础模型层和应用程序层这三大生态系统区域内，每个区域都有老赢家和新选手。从明年起，我们将看到大语言模型在各个经济区间全面兴起、发挥作用。”

Cerebras公司一直在宣传其“Andromeda”AI超级计算机。这是一套包含16个CS-2晶圆级系统的组合，总核心量超过1350万个，可在16位密集矩阵浮点运算中提供120 petaflops算力，稀疏矩阵算力还能进一步提升8倍。但该系统的成本接近3000万美元，即使是对Jasper这样的硅谷独角兽来说，价格也绝对不能算便宜。因此，Cerebras和Cirrascale各自推出了硬件租赁模式，现在开始合作将方案推向市场。

但对于各类工作负载，在特定的规模和资源利用率之下，直接购买CS-2集群确实可能比租赁更经济。Jasper就属于这种情况，具体理由咱们马上揭晓。

模型驱动内容，内容驱动模型

Jasper的业务拥有两大驱动因素，正是这两项因素使其放弃了分布式GPU AI训练的模型/数据并行耦合方案（需要跨越成千上万个GPU运行跨数据任务），义无反顾地投入Cerebras的怀抱。

Rogenmoser解释道，“首先，企业业务需要个性化模型，而且这种需求非常迫切。他们希望模型接受自己的语言训练，希望能接受知识库和产品目录方面的渗透，希望模型能引入品牌形象和元素，真正成为品牌业务的延伸。他们希望模型能够像销售团队那样说话，并立即跟上新产品的发布节奏。这样，当人们跟业务体系接触时，获得的就永远是最新、而且高度统一的感受。他们还希望语言模型能变得越来越好，根据过往数据和性能进行自我优化。如果他们写了一条Facebook广告语并大获好评，他们就希望模型能够把握其中的精髓、之后自动生成更多合心合意的宣传词。”

而Cerebras公司产品副总裁Andy Hock还对Jasper的需求做出了更复杂的总结。

“在Jasper之外，我们从市场上观察到了一种广泛存在的倾向，即很多企业都希望能为特定业务应用快速研究并开发出大语言模型。但传统云基础设施并不能显著降低这项工作的门槛。所以人们不禁要问：到底是该从零开始训练，还是对开源公共检查点进行调优？最佳方法究竟是什么？要如何有效利用算力降低商品成本、向客户提供最佳服务？在使用传统基础设施的情况下，这些问题的解决成本往往极为高昂、甚至不切实际。”

正因为如此，Cerebras和CIrrascale才决定共同打造Cerebras AI Model Studio租赁模式，其基于CS-2集群并运行在两家公司的基础设施之上。虽然并未公布具体部署了多少CS-2设备，但Cerebras架构确实拥有极强的规模扩展能力。到目前为止，192个CS-2节点已经能够在单一系统镜像中模拟多达1.63亿个核心。

在云服务上利用GPU资源训练大语言模型主要有几个难点：争夺可用的GPU资源，将模型和数据拆分到成千上万个GPU并稳定运行，还要承担由此带来的不确定性成本。

而CerebrastCIrrascale打造的AI Model Studio的核心卖点就是良好的可预测性。其不仅号称AI模型的训练速度能够达到亚马逊云科技上GPU实例的8倍，且成本仅相当于二分之一。

Currascale联合创始人兼CEO PJ GO表示，“我们的客户中有不少研究实验室和金融机构，他们都希望训练自己的模型，并利用自有数据提高模型的准确性。更重要的是，他们希望有个可以预测的报价。他们才不想给云服务商写一张金额未填的支票，这样的模型训练风险太高了。”

下面，我们就看看在AI Model Studio提供的四节点CS-2集群服务上，从零开始训练GPT-3到底要花多少钱：

这里的“Chinchilla Point”是指以令牌衡量的数据级别，可用于有效训练模型并收敛至正确答案。如果向模型灌输过多数据会导致收益递减，但如果数据过少则容易出现过度拟合，总之必须适中。

很明显，模型的大小跟参数/令牌数量成正比。一般来说，可以认为模型体积越大，在同一配置上训练所消耗的时间就越长。同样的，对AI模型进行持续训练以优化产出，其实质就是在加载并处理更多数据素材。

当然，光看Cerebras和Cirrascale公布的表格并不足以说明问题，我们还得对单参数/单令牌成本和日常运营开支做出核算。下图所示，是我们计算出的语言模型领域三巨头（GPT NeoX、GPT 70B和GPT 175B）所对应的性格和性能。全部模型均使用16个CS-2节点（而非前面提到的四CS-2节点Andromeda级集群）进行训练。

这里要解释一下Jump Factor是个什么东西。我们想了解的是随着GPT模型规模的庞大，其训练时长和价格会如何变化。另外，我们还想知道要如何扩大集群规模来加快训练速度。这里的Jump Factor代表的就是一种GPT模型到下一GPT模型的增量。这里我们跳过了T-5 11B模型，因为其体量基本相当于GPT-3 6.7B模型。（请注意，表中显示的谷歌T5 transformer模型并非GPT-3模型，而只是另一种大语言模型。）所以这里其实是由GPT-3 6.7B跳转至GPT-3 13B，与T-5 11B无关。

在四节点CS_2集群上，即使是最低GPT-3参数规模也有点“超重”，后续参数的增加更会令训练时间大大超出预期。从13亿个参数增加到60亿个参数，数据总量增加了4.6倍，但训练时间却延长达20倍。由67亿参数增加到130亿参数相当于扩展了1.9倍，但训练时间增加了3.5倍。而使用GPT NeoX时情况则不同，参数增加1.5倍时，其训练时间仅增加1.2倍。所以模型体量的变化与训练时长并非精确的线性关系。

相比之下，CS-2设备的扩展则基本保持线性。四节点集群性能几乎是双节点的2倍，八节点又几乎是四节点的2倍，十六节点几乎是八节点的2倍。但价格没能维持这样的线性递增，Feldman表示至少在NUMA架构中，价格的增加速度其实是比资源规模更快的。Feldman这样描述十六CS-2节点与四节点间的性能与价格区别——“4倍性能，5倍价格”。

我们不知道能不能靠算法省掉一到两个节点的硬件，借此将CS-2集群的使用成本再降低20%，但应该是有戏。但话说回来，既然我们可以用更大的系统在更短时间内完成训练，又何必在较小的系统上浪费时间呢？除非预算实在卡得太死，否则用钱换时间其实挺划算的。

这就是我们对于大语言模型训练成本的猜测。很明显，在四节点集群上，每组参数的处理成本会随着模型扩大而有所增加。按照Cerebras和Cirrascale公布的定价，GPT-3XL模型每100万个参数的训练成本仅为1.92美元，但GPT 70B模型的同等参数则为35.71美元。换言之，随着参数数量增加53.8倍，每100万个参数的训练成本上涨了18.6倍。

我们猜测，在四节点CS-2集群上运行一个5000亿参数的GPT模型大概需要一年时间；而在十六节点集群上，一年时间足够训练出包含2万亿参数的模型。或者根据我们的估计，这样的资源足以从零开始完成13轮GPT 175B模型的训练——相当于每月一次，还能多一次备用。没错，只要花3000万美元买下自己的Andromeda CS-2超级计算机，你就可以随时享受这13轮计算配额。而且如果我们对AI Model Studio的计费推测正确，那以租赁方式把GPT 175B模型训练上13遍大概要花掉1.42亿美元。

所以肯定会有人愿意选择租赁；等事实证明模型表现不错，但还需要进一步扩大参数规模时，他们才会认真考虑购买这个选项。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

大语言模型训练，该怎么选择才能节省成本？

模型驱动内容，内容驱动模型

来源：至顶网软件与服务频道

2022

12/02

15:32

分享

点赞

生命科学计算测试专委会正式成立，BioProfile框架引领行业标准建设

超智算完成北京核心智算中心资产收购，加速构筑“3+X”全国算力网络新格局

走出“参数崇拜”：联想用“一体多端”重塑“人的尺度”

从“单点突破”到“一体多端”：拆解天禧AI 3.5进化背后三年的进化哲学

openGauss Summit 2025在京召开，加速行业智能化变革，共建繁荣数据库生态

2025联想天禧AI生态伙伴大会：天禧AI一体多端，与开发者共建个人AI生态

西班牙病毒如何将谷歌带到马拉加

LangChain核心库曝出严重漏洞，AI智能体机密信息面临泄露风险

Mill如何与亚马逊和全食超市达成合作协议

TechCrunch创业大赛中的9家顶尖生物技术初创公司

2025年印度科技领域十大重要发展

中科大发布Live Avatar：AI数字人无限聊天不翻车

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: