Red Hat帮助美国能源部超级三大国家实验室开启高性能计算容器化

云原生架构改变了应用的部署方式，但对于高性能计算来说仍然是一个相对未知的领域。不过据报道，接下来Red Hat和美国能源部将在这个领域采取一些行动。

IBM子公司Red Hat与美国劳伦斯伯克利国家实验室、劳伦斯利弗莫尔国家实验室以及桑迪亚国家实验室展开紧密合作，开发新一代的高性能计算应用，这些应用可以运行在容器中，可以使用Kubernetes进行编排，并针对分布式文件系统进行了优化。此举还将让企业更容易部署AI/ML工作负载。

虽然Kubernetes、容器化和块存储在超大规模和云数据中心中都是老生常谈，但这些技术尚未在高性能计算环境中得到大规模的部署。高性能计算环境一直都是高度专业化的，用于满足工作负载特定要求的。

桑迪亚国家实验室研发经理Andrew Younge表示：“我们的工作负载与云非常不同，我们需要运行一项非常大的任务，并将其分布到数十个、数百个、数千个单独的CPU上，这是一种一对多的映射。”

相比之下，云提供商则主要关注的是可用性和容量。换句话说，如何使应用规模化来满足快速变化的使用和流量模式的需求。

“考虑到这一点，我们正在尝试……在高性能计算环境中使用云原生技术，这需要一些定制，”Younge解释说。

他补充说，容器化在高性能计算领域并不是陌生，但是经常被部署在专有的运行时中。

“可以采用更多的标准技术，就意味着我们就可以开始利用生态系统了，”劳伦斯伯克利国家实验室的高级工程师Shane Canon这样表示。

“我们希望能够运行我们的高性能计算工作负载，但也希望可以与Kubernetes风格的部署、配置和执行结合起来。”

Red Hat将目光投向高性能计算容器化

Red Hat公司新兴技术全球布道师Yan Fisher表示：“如果你从总体上看容器化的话，会发现我们一直关注容器的应用价值，更多的是基础设施应用。”

为了应对这些挑战，Red Hat正在与这些实验室展开合作，将云原生技术集成到高性能计算工作流中，并为其提供支持。

在伯克利国家实验室，Red Hat正在与Canon合作对Podman进行改进，这是一种类似于Docker的无守护程序容器引擎，以取代国家能源研究科学计算中心的自定义Shifter开发运行时。

同样地，在桑迪亚国家实验室，Red Hat正在与Younge的团队合作，探索使用OpenShift平台在Kubernetes上大规模部署工作负载。

“就Kubernetes而言，拥有这种灵活性可以带来很多价值。我们通常会将一切都表示为一项任务，这有时会受到限制。但是，将服务和任务两者融合，确实提供了一个全面的科学生态系统。”

与此同时，在劳伦斯利弗莫尔国家实验室，Red Hat正致力于帮助研究人员部署和管理容器化工作负载以及传统的高性能计算应用。

所有这三个实验室都在研究如何在分布式文件系统中部署这些工作负载，取代当前使用专用并行文件系统的方法。

最终目标是让高性能计算工作负载能够“超大规模”地部署在Kubernetes上，同时为用户提供易于理解的部署方式。

“其中很多，尤其是Podman，是为了确保我们在高性能计算中获得的经验可以推广到更广泛的领域。”

这项工作带来的好处将远远超出科学领域。他补充说，在容器或者Kubernetes上能够轻松部署高性能计算工作负载，这将对那些争相部署AI/ML等大型并行工作负载的企业带来影响。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

人工智能

云存储技术

数据传输加速

2025-10-17

CoreWeave LOTA技术实现对象数据高速全球传输

CoreWeave发布AI对象存储服务，采用本地对象传输加速器（LOTA）技术，可在全球范围内高速传输对象数据，无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输，提供高达每GPU 7 GBps的吞吐量，可扩展至数十万个GPU。服务采用三层自动定价模式，为客户的AI工作负载降低超过75%的存储成本。

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

人工智能

检索增强生成

多智能体系统

2025-10-17

IDEA研究院等机构联手打造智能AI助手：让机器像人类一样思考和学习的突破性技术

IDEA研究院等机构联合开发了ToG-3智能推理系统，通过多智能体协作和双重进化机制，让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异，能用较小模型达到卓越性能，为AI技术的普及应用开辟了新路径，在教育、医疗、商业决策等领域具有广阔应用前景。

人工智能

核聚变

新型算法

2025-10-17

谷歌DeepMind与CFS合作开发核聚变等离子体AI控制系统

谷歌DeepMind与核聚变初创公司CFS合作，运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体，结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯，可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。

人工智能

强化学习

协同训练

2025-10-17

AI训练新突破：上海AI实验室让大模型自己当老师，推理和判断能力同步飞跃

上海人工智能实验室提出SPARK框架，创新性地让AI模型在学习推理的同时学会自我评判，通过回收训练数据建立策略与奖励的协同进化机制。实验显示，该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%，且训练成本仅为传统方法的一半，展现出强大的泛化能力和自我反思能力。

Red Hat帮助美国能源部超级三大国家实验室开启高性能计算容器化

来源：至顶网软件与服务频道

2022

06/06

10:14

分享

点赞

Littelfuse推出首款具有SPDT和长行程且兼容回流焊接的发光轻触开关

至顶科技助力AI创业者，在HICOOL峰会探索“如何用AI赚到第一桶金”

CoreWeave LOTA技术实现对象数据高速全球传输

谷歌DeepMind与CFS合作开发核聚变等离子体AI控制系统

微软为Windows 11推出全新Copilot自动化功能

苹果研究人员探索AI如何预测Bug、编写测试并修复代码

刚果称全球最大水电站可为AI数据中心供电

HPE Alletra存储业务获得战略重点关注

谷歌DeepMind与核聚变初创公司合作的真实原因

Omdia预测：超大规模云市场销售额2030年将达1630亿美元

Oracle全面押注AI，用户仍在摸索应用路径

Aramex与AWS携手推进全球物流数字化转型

VDURA 推出 V5000 全闪存节点，提升海量数据访问速度

VDURA 展示面向能源行业的节能高性能计算系统

AI PC 之争：Microsoft 的 NPU 执念与 Nvidia 的 AI PC 野心

DDN 获3亿美元投资，矢志成为 AI 存储领导者

Gartner：中国企业优化云原生投资的三大策略

Panmnesia 凭借 GPU CXL 内存扩展技术获奖

AMD 追随 NVIDIA 进军 AI 药物研发领域

新加坡大学借助 Xinnor 存储平台提升 AI 研究能力

红帽详述企业AI发展愿景，欲借Granite奠定基础

爱立信推出紧凑型分组核心网，简化 5G 现代化网络

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: