谷歌云更新 Kubernetes 引擎，可支持万亿参数的人工智能模型

谷歌云（Google Cloud）今天宣布升级旗下 Kubernetes 引擎的容量，以应对更大规模的模型，Kubernetes 引擎的容量将从目前支持 15000 个节点集群升级到支持 65000 个节点集群。

生成式人工智能模型越来越大，参数已多达 2 万亿个，大型语言模型对计算和存储的需求也在增加。

谷歌云（Google Cloud）今天宣布升级旗下 Kubernetes 引擎的容量，以应对更大规模的模型，Kubernetes 引擎的容量将从目前支持 15000 个节点集群升级到支持 65000 个节点集群。Kubernetes 引擎的扩容将为处理全球最复杂且资源密集型的人工智能任务提供所需的规模和计算能力。

在人工智能加速器工作负载上训练数万亿参数的模型需要超过 10,000 个节点的集群。人工智能模型的参数指的是模型中的变量，这些变量控制着模型的行为方式和预测能力。变量越多，模型准确预测的能力就越强。参数有点类似于模型里的旋钮或开关，模型开发者可以调整这些参数达到提高模型性能或准确性的目的。

谷歌云Kubernetes和无服务器高级产品总监 Drew Bradstock 在接受记者采访时表示，“从根本上讲，大型语言模型（LLM）不断增大，世界各地公司需要非常大的集群才能高效运行这些模型。他们不仅仅需要大型集群。他们需要可靠、可扩展的集群才能应对运行这些 LLM 训练工作负载实际遇到的挑战。”

谷歌 Kubernetes 引擎（缩写为 GKE）是谷歌提供的托管 Kubernetes 服务，GKE 可减少运行容器环境的工作量。GKE 可根据工作负载需求的变化自动添加和移除硬件资源，例如专用人工智能芯片或图形处理单元。GKE 也可以为用户更新 Kubernetes 及监督其他维护任务。

GKE 新的65,000节点集群能够管理分布在250,000个张量处理单元上的人工智能模型，张量处理单元是用于加速机器学习和生成式人工智能工作负载的专用人工智能处理器。Bradstock 表示，这比 GKE 在单个集群上以前的基准（5 万个 TPU 芯片）提高了五倍。

新的65,000节点集群大大提高了运行大规模人工智能工作负载的可靠性和效率。Bradstock 认为，规模的增加对大规模人工智能训练和推理都很重要，因为 Kubernetes 允许用户无需担心停机就可以处理基于硬件的故障。这也能加快作业完成时间，因为额外的容量可以在更短的时间内运行更多的模型迭代。

Bradstock 表示，为了实现这一目标，谷歌云正在将GKE从开源的分布式键值存储etcd过渡到更强大的基于谷歌分布式数据库Spanner系统。这将使 GKE 集群能够处理几乎无限的规模并提供更低的延迟。

谷歌还对 GKE 基础设施进行了重大改造，改造后 GKE 的扩展速度显著加快。客户需求因此能够更快地得到满足。此外，GKE 也能够在单个集群中运行五个负载作业，每个作业的规模均与谷歌云之前训练大型语言模型的记录相匹配。

Bradstock表示，客户的关注、该系统中人工智能的普及以及人工智能在整个行业的快速发展等等推动了升级需求。谷歌的客户一直都在利用 GKE 的集群功能训练他们的模型，客户包括Anthropic PBC等领先的前沿人工智能模型开发商。

Anthropic 公司计算主管 James Bradbury 表示，“GKE 对更大型集群的新支持为我们提供了加快人工智能创新步伐所需的规模。”

Bradstock表示，在过去的一年里，GKE 上 TPU 和图形处理单元的使用增加了 900%，大大超过了以前的使用量，而以前使用量就已经很大了。他表示，“这主要是由人工智能的快速增长所推动的。人工智能在未来将占 GKE 使用的主

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

谷歌云更新 Kubernetes 引擎，可支持万亿参数的人工智能模型

来源：至顶网软件与服务频道

2024

11/15

10:16

分享

点赞

数智惠闽企，展车进福州｜华为坤灵中国行2025·福建站成功举办，推动闽企智能化发展新征程

AI时代的影像实验：记录你眼中的“变化”

大象转身，亦或重塑大象：Unity团结引擎的“中国本土”进化

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: