云原生架构改变了应用的部署方式,但对于高性能计算来说仍然是一个相对未知的领域。不过据报道,接下来Red Hat和美国能源部将在这个领域采取一些行动。
IBM子公司Red Hat与美国劳伦斯伯克利国家实验室、劳伦斯利弗莫尔国家实验室以及桑迪亚国家实验室展开紧密合作,开发新一代的高性能计算应用,这些应用可以运行在容器中,可以使用Kubernetes进行编排,并针对分布式文件系统进行了优化。此举还将让企业更容易部署AI/ML工作负载。
虽然Kubernetes、容器化和块存储在超大规模和云数据中心中都是老生常谈,但这些技术尚未在高性能计算环境中得到大规模的部署。高性能计算环境一直都是高度专业化的,用于满足工作负载特定要求的。
桑迪亚国家实验室研发经理Andrew Younge表示:“我们的工作负载与云非常不同,我们需要运行一项非常大的任务,并将其分布到数十个、数百个、数千个单独的CPU上,这是一种一对多的映射。”
相比之下,云提供商则主要关注的是可用性和容量。换句话说,如何使应用规模化来满足快速变化的使用和流量模式的需求。
“考虑到这一点,我们正在尝试……在高性能计算环境中使用云原生技术,这需要一些定制,”Younge解释说。
他补充说,容器化在高性能计算领域并不是陌生,但是经常被部署在专有的运行时中。
“可以采用更多的标准技术,就意味着我们就可以开始利用生态系统了,”劳伦斯伯克利国家实验室的高级工程师Shane Canon这样表示。
“我们希望能够运行我们的高性能计算工作负载,但也希望可以与Kubernetes风格的部署、配置和执行结合起来。”
Red Hat将目光投向高性能计算容器化
Red Hat公司新兴技术全球布道师Yan Fisher表示:“如果你从总体上看容器化的话,会发现我们一直关注容器的应用价值,更多的是基础设施应用。”
为了应对这些挑战,Red Hat正在与这些实验室展开合作,将云原生技术集成到高性能计算工作流中,并为其提供支持。
在伯克利国家实验室,Red Hat正在与Canon合作对Podman进行改进,这是一种类似于Docker的无守护程序容器引擎,以取代国家能源研究科学计算中心的自定义Shifter开发运行时。
同样地,在桑迪亚国家实验室,Red Hat正在与Younge的团队合作,探索使用OpenShift平台在Kubernetes上大规模部署工作负载。
“就Kubernetes而言,拥有这种灵活性可以带来很多价值。我们通常会将一切都表示为一项任务,这有时会受到限制。但是,将服务和任务两者融合,确实提供了一个全面的科学生态系统。”
与此同时,在劳伦斯利弗莫尔国家实验室,Red Hat正致力于帮助研究人员部署和管理容器化工作负载以及传统的高性能计算应用。
所有这三个实验室都在研究如何在分布式文件系统中部署这些工作负载,取代当前使用专用并行文件系统的方法。
最终目标是让高性能计算工作负载能够“超大规模”地部署在Kubernetes上,同时为用户提供易于理解的部署方式。
“其中很多,尤其是Podman,是为了确保我们在高性能计算中获得的经验可以推广到更广泛的领域。”
这项工作带来的好处将远远超出科学领域。他补充说,在容器或者Kubernetes上能够轻松部署高性能计算工作负载,这将对那些争相部署AI/ML等大型并行工作负载的企业带来影响。
好文章,需要你的鼓励
购买笔记本电脑时,用户现在需要了解Copilot+ PC、NPU和本地AI处理等新概念。搭载专用神经处理单元(NPU)的Copilot+ PC能提供至少40 TOPS的AI算力,支持实时字幕翻译、视频通话优化、AI图像编辑等功能,同时提升续航表现。戴尔最新产品线涵盖多种选择:Dell 14 Plus适合学生和通勤族,Dell 16 Plus适合多任务办公用户,XPS 14面向轻度创作者,XPS 16则以31小时超长续航和3.6磅轻薄机身成为内容创作者的旗舰之选。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。
圣安德鲁斯大学博士Henry Legg在《自然》杂志发表同行评审论文,对微软拓扑间隙协议(TGP)框架提出质疑,认为该框架在推断Majorana粒子量子态存在方面存在缺陷,且实验数据分析结论可能有误。微软此前宣称将于2029年实现可扩展量子计算机,并推出Majorana 2芯片。对此,微软坚持立场,表示已发表正式反驳并获《自然》收录,对研发路线图充满信心。
上交大与爱丁堡大学提出InfoKV,将信息熵与注意力权重结合用于KV缓存压缩,让大模型在仅保留12.5%缓存的条件下实现接近甚至超越完整缓存的长推理性能。