企业越来越依靠云资源运行高性能计算(HPC)工作负载。面对某些负载,企业需要云HPC的突发运行能力;一些其他情况下,企业可能无法充分使用本地超级计算机。HPC工作负载强调用大规模计算来解决复杂问题,需要借用分布在众多设备上的大量数据、存储和高速网络。此外,还需要使用较为易用的工具保证客户能将时间花在实际计算任务上,不必太多为基础设施的管理工作分神。
AWS已经身处云HPC发展的最前沿,服务范畴涵盖高级作业编排与集群管理、增强计算结构,以及可扩展至数百万IOPS的文件系统。AWS还意识到,许多客户都需要针对特定HPC工作负载进行实例优化,借此获取高性能、经济高效的解决方案。最近,AWS宣布全面推出Amazon EC2 Hpc7a实例,客户可根据需求立足三种现有HPC进行升级。在本文中,我们将具体介绍这些HPC实例,重点关注家族中的新成员,并深入探讨强大HPC性能能够支持的相应用例。
采用最新技术构建的无限HPC容量
云服务消除了本地集群所固有的传统局限性:基础设施容量固定、技术陈旧且资本支出过高。随着AWS发布更新、更强大的计算实例,客户可以快速迁移到这些实例,从而消除本地CPU集群随需求变化而过时、或者利用率低下的风险。
AWS现在拥有四种HPC优化型EC2实例。首先,基于AWS Graviton3E处理器的Hpc7g实例,能够为基于MPI的应用程序提供低延迟和更高网络性能。(MPI全称消息传递接口,是集群计算的一项规范。)其次,Hpc6id实例适用于内存限制和数据密集型工作负载,包括有限元分析(后文将具体阐述)和地震模拟。最后,我们还有适用于计算流体动力学和天气预报等计算密集型应用的Hpc6a和新的Hpc7a实例。
与上一代相比性能更强
全新Amazon EC2 Hpc7a实例配备第四代AMD EPYC(Genoa)处理器。与Hpc6a实例相比,Hpc7a实例的核心密度提高了一倍,达到192核心;内存带宽吞吐量提高2.1倍;内存容量也提高一倍,达到768 GB;网络带宽则提高了三倍。
为了实现节点间的快速、低延迟通信,这些实例还配备由AWS Nitro系统提供支持的300 Gbps Elastic Fabric Adapter (EFA) 网络带宽。Hpc7a实例采用DDR5内存,与DDR4内存相比内存带宽增加了50%,可实现对内存内数据的高速访问。
与Hpc6a实例相比,新实例能够在更少节点上实现有效扩展。新实例提供四种配置选项,各选项的内存容量与互连速度相同,仅以24核、48核、96核和128核做CPU性能区分。
准确的天气预报离不开高性能计算
HPC改善天气预报准确率
全新Hpc7a实例的一项重要应用就是天气预报。这里所指的天气预报,绝非我们用来指导如何着装、或者自驾出游时是否下雨等日常场景。
有两类组织需要依据天气预测运行自己的工作负载。第一类大多为初创公司,他们会从国家海洋和大气管理局(NOAA)及类似组织获取天气数据,对其进行处理再把结果出售给保险公司及依赖天气信息的其他客户。在云服务出现之前,此类业务在经济上缺乏利润空间,往往要求厂商购置一台90%的时间处于闲置状态的本地超级计算机。
第二类组织则是运行连续天气模型和长期气候研究负载的大型企业和政府实验室。这些组织通常有充足的任务来保持本地超级计算机的高利用率。对他们来说,云服务同样为天气数值预报和气候建模提供一种更经济的替代性方案。
DTN就是前一类组织中的现实案例,他们专门基于订阅模式交付实时天气信息与分析结果。DTN复杂的高分辨率模型需要持续处理来自全球输入的大量数据。使用Amazon EC2 Hpc6a实例,DTN能够将其高分辨率全球天气建模能力提高一倍,从每天运行两次增加到四次。
这些新实例支持整体运行,这对固定容量的本地设施环境来说向来是个老大难问题。集合预报是指同时运行多种预报的集合,同时保留初始条件。得出的结果为各项预报的结果分布,可从中导出概率密度函数以提高最终预测的准确性。
HPC帮助汽车制造商优化车辆的空气动力学性能
助力汽车行业解决重大挑战
HPC在汽车设计和分析方面也有诸多应用。例如,一项重大挑战就是优化车辆的空气动力学形态以提高燃油效率。使用粘土模型在风洞中进行空气动力学模拟的传统方法既昂贵又耗时。而基于流体动力学模拟,HPC实例可以运行数千次设计仿真来找出最佳候选方案,从而缩短从物理原型到实车上路的时间。
有限元分析是碰撞分析中的一种重要方法。在车辆上市之前,汽车制造商必须进行大量碰撞分析。传统上,这要求在专用的碰撞设施之内对汽车进行碰撞,成本之高昂可想而知。而在计算机内撞毁虚拟汽车则要经济得多,这也成为AWS HPC新实例的又一应用亮点。
与上一代实例相比,法拉利报告Hpc7a实例在计算流体动力学(CFD)工作负载的性能提高了30%,有限元分析(FEA)的性能提高了25%。这些进步也将直接反映出AWS新实例带来的重大业务影响。
总结
随着HPC工作负载复杂性的提升,客户对计算、内存和网络性能的需求也在不断增长,希望借此缩短任务的运行周期。随着越来越多客户将HPC工作负载引入EC2,亚马逊也在积极做出响应,努力让实例设计与工作负载需求保持一致。
纵观之前提到的各种关键用例,可以看到客户迫切希望拥有多种针对特定HPC工作负载进行优化的高性能、经济高效的实例选项。云服务在HPC领域堪称福音,能够提供对近乎无限的基础设施资源的开放访问。客户则可以按需扩展,且仅根据实际使用的资源量付费。通过这种方式,客户将顺利摆脱容量有限、技术陈旧和成本高昂等本地集群所带来的长期挑战。
AWS提供的服务水平可保证在几分钟内实现从百级实例到千级实例、甚至更大规模的扩展弹性。这将消除作业的排队时间,并根据需求扩展集群以极大提升效率,最终缩短客户的产品上市时间。AWS发布的新实例将给企业客户带来显著收益。随着AI及其他前沿技术不断创造出更复杂、更密集的工作负载,我们也期待看到各部门如何充分运用云HPC提供的海量资源。
好文章,需要你的鼓励
卡内基梅隆大学发布了他们的一项最新研究,他们对20多个开源推理模型进行了后训练,涵盖数学推理、科学问答、代码生成、指令遵循等多个维度,最终发现,数学能力优异的模型,在其他任务上表现平平,甚至还不如未加强数学推理能力的原始模型
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
Meta正在建设名为Hyperion的数据中心,预计提供5千兆瓦算力支持其AI实验室。该项目占地面积足以覆盖曼哈顿大部分区域,位于路易斯安那州东北部,将在数年内扩展至5GW规模。此外,Meta还计划在2026年启用1GW的Prometheus超级集群。这些项目旨在提升Meta在AI竞赛中对抗OpenAI和谷歌的竞争力,但也将消耗大量电力和水资源。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。