云原生架构改变了应用的部署方式,但对于高性能计算来说仍然是一个相对未知的领域。不过据报道,接下来Red Hat和美国能源部将在这个领域采取一些行动。
IBM子公司Red Hat与美国劳伦斯伯克利国家实验室、劳伦斯利弗莫尔国家实验室以及桑迪亚国家实验室展开紧密合作,开发新一代的高性能计算应用,这些应用可以运行在容器中,可以使用Kubernetes进行编排,并针对分布式文件系统进行了优化。此举还将让企业更容易部署AI/ML工作负载。
虽然Kubernetes、容器化和块存储在超大规模和云数据中心中都是老生常谈,但这些技术尚未在高性能计算环境中得到大规模的部署。高性能计算环境一直都是高度专业化的,用于满足工作负载特定要求的。
桑迪亚国家实验室研发经理Andrew Younge表示:“我们的工作负载与云非常不同,我们需要运行一项非常大的任务,并将其分布到数十个、数百个、数千个单独的CPU上,这是一种一对多的映射。”
相比之下,云提供商则主要关注的是可用性和容量。换句话说,如何使应用规模化来满足快速变化的使用和流量模式的需求。
“考虑到这一点,我们正在尝试……在高性能计算环境中使用云原生技术,这需要一些定制,”Younge解释说。
他补充说,容器化在高性能计算领域并不是陌生,但是经常被部署在专有的运行时中。
“可以采用更多的标准技术,就意味着我们就可以开始利用生态系统了,”劳伦斯伯克利国家实验室的高级工程师Shane Canon这样表示。
“我们希望能够运行我们的高性能计算工作负载,但也希望可以与Kubernetes风格的部署、配置和执行结合起来。”
Red Hat将目光投向高性能计算容器化
Red Hat公司新兴技术全球布道师Yan Fisher表示:“如果你从总体上看容器化的话,会发现我们一直关注容器的应用价值,更多的是基础设施应用。”
为了应对这些挑战,Red Hat正在与这些实验室展开合作,将云原生技术集成到高性能计算工作流中,并为其提供支持。
在伯克利国家实验室,Red Hat正在与Canon合作对Podman进行改进,这是一种类似于Docker的无守护程序容器引擎,以取代国家能源研究科学计算中心的自定义Shifter开发运行时。
同样地,在桑迪亚国家实验室,Red Hat正在与Younge的团队合作,探索使用OpenShift平台在Kubernetes上大规模部署工作负载。
“就Kubernetes而言,拥有这种灵活性可以带来很多价值。我们通常会将一切都表示为一项任务,这有时会受到限制。但是,将服务和任务两者融合,确实提供了一个全面的科学生态系统。”
与此同时,在劳伦斯利弗莫尔国家实验室,Red Hat正致力于帮助研究人员部署和管理容器化工作负载以及传统的高性能计算应用。
所有这三个实验室都在研究如何在分布式文件系统中部署这些工作负载,取代当前使用专用并行文件系统的方法。
最终目标是让高性能计算工作负载能够“超大规模”地部署在Kubernetes上,同时为用户提供易于理解的部署方式。
“其中很多,尤其是Podman,是为了确保我们在高性能计算中获得的经验可以推广到更广泛的领域。”
这项工作带来的好处将远远超出科学领域。他补充说,在容器或者Kubernetes上能够轻松部署高性能计算工作负载,这将对那些争相部署AI/ML等大型并行工作负载的企业带来影响。
好文章,需要你的鼓励
NVIDIA团队开发的SANA-Sprint技术实现了AI图像生成的重大突破,将传统需要20步的生成过程压缩至1步,在H100上仅需0.1秒即可生成1024×1024高清图像,速度比现有最快模型提升10倍以上。该技术通过创新的混合蒸馏策略,在大幅提升速度的同时保持了图像质量,并支持实时交互应用,为AI绘画从专业工具向大众应用的转变奠定了基础。
初创公司Positron获得5160万美元A轮融资,推出专门针对AI推理的Atlas芯片。该公司声称其芯片在性能功耗比和成本效益方面比英伟达H100高出2-5倍,并已获得Cloudflare等企业客户采用。Positron专注于内存优化设计,无需液体冷却,可直接部署在现有数据中心。公司计划2026年推出支持16万亿参数模型的下一代Titan平台。
北京人工智能研究院团队开发的DiagNote模型通过模仿人类做笔记的习惯,解决了AI在多轮视觉对话中容易"失忆"的问题。该研究构建了专门的MMDiag数据集,设计了双模块协作的AI架构,让机器学会像人类一样通过标记重点区域来保持专注力,为更自然的人机视觉交流奠定了基础。