云原生架构改变了应用的部署方式,但对于高性能计算来说仍然是一个相对未知的领域。不过据报道,接下来Red Hat和美国能源部将在这个领域采取一些行动。
IBM子公司Red Hat与美国劳伦斯伯克利国家实验室、劳伦斯利弗莫尔国家实验室以及桑迪亚国家实验室展开紧密合作,开发新一代的高性能计算应用,这些应用可以运行在容器中,可以使用Kubernetes进行编排,并针对分布式文件系统进行了优化。此举还将让企业更容易部署AI/ML工作负载。
虽然Kubernetes、容器化和块存储在超大规模和云数据中心中都是老生常谈,但这些技术尚未在高性能计算环境中得到大规模的部署。高性能计算环境一直都是高度专业化的,用于满足工作负载特定要求的。
桑迪亚国家实验室研发经理Andrew Younge表示:“我们的工作负载与云非常不同,我们需要运行一项非常大的任务,并将其分布到数十个、数百个、数千个单独的CPU上,这是一种一对多的映射。”
相比之下,云提供商则主要关注的是可用性和容量。换句话说,如何使应用规模化来满足快速变化的使用和流量模式的需求。
“考虑到这一点,我们正在尝试……在高性能计算环境中使用云原生技术,这需要一些定制,”Younge解释说。
他补充说,容器化在高性能计算领域并不是陌生,但是经常被部署在专有的运行时中。
“可以采用更多的标准技术,就意味着我们就可以开始利用生态系统了,”劳伦斯伯克利国家实验室的高级工程师Shane Canon这样表示。
“我们希望能够运行我们的高性能计算工作负载,但也希望可以与Kubernetes风格的部署、配置和执行结合起来。”
Red Hat将目光投向高性能计算容器化
Red Hat公司新兴技术全球布道师Yan Fisher表示:“如果你从总体上看容器化的话,会发现我们一直关注容器的应用价值,更多的是基础设施应用。”
为了应对这些挑战,Red Hat正在与这些实验室展开合作,将云原生技术集成到高性能计算工作流中,并为其提供支持。
在伯克利国家实验室,Red Hat正在与Canon合作对Podman进行改进,这是一种类似于Docker的无守护程序容器引擎,以取代国家能源研究科学计算中心的自定义Shifter开发运行时。
同样地,在桑迪亚国家实验室,Red Hat正在与Younge的团队合作,探索使用OpenShift平台在Kubernetes上大规模部署工作负载。
“就Kubernetes而言,拥有这种灵活性可以带来很多价值。我们通常会将一切都表示为一项任务,这有时会受到限制。但是,将服务和任务两者融合,确实提供了一个全面的科学生态系统。”
与此同时,在劳伦斯利弗莫尔国家实验室,Red Hat正致力于帮助研究人员部署和管理容器化工作负载以及传统的高性能计算应用。
所有这三个实验室都在研究如何在分布式文件系统中部署这些工作负载,取代当前使用专用并行文件系统的方法。
最终目标是让高性能计算工作负载能够“超大规模”地部署在Kubernetes上,同时为用户提供易于理解的部署方式。
“其中很多,尤其是Podman,是为了确保我们在高性能计算中获得的经验可以推广到更广泛的领域。”
这项工作带来的好处将远远超出科学领域。他补充说,在容器或者Kubernetes上能够轻松部署高性能计算工作负载,这将对那些争相部署AI/ML等大型并行工作负载的企业带来影响。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。