谷歌云更新 Kubernetes 引擎，可支持万亿参数的人工智能模型

谷歌云（Google Cloud）今天宣布升级旗下 Kubernetes 引擎的容量，以应对更大规模的模型，Kubernetes 引擎的容量将从目前支持 15000 个节点集群升级到支持 65000 个节点集群。

生成式人工智能模型越来越大，参数已多达 2 万亿个，大型语言模型对计算和存储的需求也在增加。

谷歌云（Google Cloud）今天宣布升级旗下 Kubernetes 引擎的容量，以应对更大规模的模型，Kubernetes 引擎的容量将从目前支持 15000 个节点集群升级到支持 65000 个节点集群。Kubernetes 引擎的扩容将为处理全球最复杂且资源密集型的人工智能任务提供所需的规模和计算能力。

在人工智能加速器工作负载上训练数万亿参数的模型需要超过 10,000 个节点的集群。人工智能模型的参数指的是模型中的变量，这些变量控制着模型的行为方式和预测能力。变量越多，模型准确预测的能力就越强。参数有点类似于模型里的旋钮或开关，模型开发者可以调整这些参数达到提高模型性能或准确性的目的。

谷歌云Kubernetes和无服务器高级产品总监 Drew Bradstock 在接受记者采访时表示，“从根本上讲，大型语言模型（LLM）不断增大，世界各地公司需要非常大的集群才能高效运行这些模型。他们不仅仅需要大型集群。他们需要可靠、可扩展的集群才能应对运行这些 LLM 训练工作负载实际遇到的挑战。”

谷歌 Kubernetes 引擎（缩写为 GKE）是谷歌提供的托管 Kubernetes 服务，GKE 可减少运行容器环境的工作量。GKE 可根据工作负载需求的变化自动添加和移除硬件资源，例如专用人工智能芯片或图形处理单元。GKE 也可以为用户更新 Kubernetes 及监督其他维护任务。

GKE 新的65,000节点集群能够管理分布在250,000个张量处理单元上的人工智能模型，张量处理单元是用于加速机器学习和生成式人工智能工作负载的专用人工智能处理器。Bradstock 表示，这比 GKE 在单个集群上以前的基准（5 万个 TPU 芯片）提高了五倍。

新的65,000节点集群大大提高了运行大规模人工智能工作负载的可靠性和效率。Bradstock 认为，规模的增加对大规模人工智能训练和推理都很重要，因为 Kubernetes 允许用户无需担心停机就可以处理基于硬件的故障。这也能加快作业完成时间，因为额外的容量可以在更短的时间内运行更多的模型迭代。

Bradstock 表示，为了实现这一目标，谷歌云正在将GKE从开源的分布式键值存储etcd过渡到更强大的基于谷歌分布式数据库Spanner系统。这将使 GKE 集群能够处理几乎无限的规模并提供更低的延迟。

谷歌还对 GKE 基础设施进行了重大改造，改造后 GKE 的扩展速度显著加快。客户需求因此能够更快地得到满足。此外，GKE 也能够在单个集群中运行五个负载作业，每个作业的规模均与谷歌云之前训练大型语言模型的记录相匹配。

Bradstock表示，客户的关注、该系统中人工智能的普及以及人工智能在整个行业的快速发展等等推动了升级需求。谷歌的客户一直都在利用 GKE 的集群功能训练他们的模型，客户包括Anthropic PBC等领先的前沿人工智能模型开发商。

Anthropic 公司计算主管 James Bradbury 表示，“GKE 对更大型集群的新支持为我们提供了加快人工智能创新步伐所需的规模。”

Bradstock表示，在过去的一年里，GKE 上 TPU 和图形处理单元的使用增加了 900%，大大超过了以前的使用量，而以前使用量就已经很大了。他表示，“这主要是由人工智能的快速增长所推动的。人工智能在未来将占 GKE 使用的主

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

谷歌云更新 Kubernetes 引擎，可支持万亿参数的人工智能模型

来源：至顶网软件与服务频道

2024

11/15

10:16

分享

点赞

智能体驱动全球创新浪潮，微软携手前沿伙伴迈进消费电子新未来

达索系统在CES 2026上展示AI驱动的医疗创新， 重塑精准、可预测与个性化医疗

Arm 发布 20 项技术预测：洞见 2026 年及未来发

美光推出全球首款面向客户端计算的 PCIe 5.0 QLC SSD

SanDisk重塑经典SSD品牌：WD Black和Blue正式更名为Optimus系列

福特汽车准备在车载系统中引入AI智能助手

ChatGPT推出健康模式：结合医疗数据提供个性化建议

福特推出AI数字助理及新一代BlueCruise自动驾驶技术

联想Legion Pro可卷曲概念机展现移动大屏游戏新体验

印度和新加坡在智能体AI采用方面超越全球同行

华硕CES 2026新品：更小巧的ProArt GoPro笔记本和升级版Zenbook Duo

n8n警告CVSS满分漏洞影响自托管和云版本

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

达索系统在CES 2026上展示AI驱动的医疗创新，重塑精准、可预测与个性化医疗