IBM 研究部门 IBM Research将旗下人工智能超级计算机 Vela (IBM云的一部分)的容量增加了一倍,以应对 watsonx 模型的强劲增长,IBM Research还制定了积极的计划,利用自家研发的加速器 IBM AIU 继续扩展和增强人工智能推理能力。
IBM研究院一年前宣布建立用于训练基于英伟达A100 GPU的人工智能基础模型的大型云基础设施,名为Vela。IBM 客户正在迅速采用人工智能技术,目前已有数百个开发项目正在使用 IBM watsonx。IBM 在去年的一次分析师活动上分享了一些令人印象深刻的成功案例,并正在吸引更多的人工智能项目加入他们的管道。IBM 首席执行Arvind Krishna在最近的财报电话会议上表示,watsonx 的管道规模自上一季度以来大约翻了一番。
IBM Research 日前完成了 Vela 的第一阶段升级,并且计划继续进行升级,以满足业界对训练更大规模基础模型的需求。IBM Research 提供了有关细节,为其他希望在控制成本的同时升级人工智能基础架构的公司提供了宝贵的经验。
新的 Vela
最初的 Vela 配备了总数不详的 GPU 和英特尔至强 CPU,都是通过标准的 2x100G 以太网 NICS 互连。IBM Research 放弃了性能更好、成本更高的 Infiniband,以更低的资本成本展示了接近裸金属的性能,同时实现了 Kubernetes 的云标准容器支持。
人工智能超级计算机Vela,专门用于基础模型研究和客户端模型开发(图:IBM)
为了处理不断增加的负载,IBM 的研究人员面临的选择是:用更多的 Nvidia A100 GPU 升级 Vela或全部换成速度更快的 H100。IBM 的研究人员意识到,如果实施功率封顶策略,就可以在相同的可用功率范围内将每个机架的 GPU 数量增加一倍,进而可以提高 GPU 的密度。
新的 Vela 云每个机架有 6 x 8 个 GPU 节点(图:IBM)
IBM 研究人员确定了要将 GPU 数量翻倍的计划后,就需要在不拆除网卡和交换机的情况下解决网络带宽问题。为此,他们部署了以太网 RDMA 和英伟达 GPU-Direct RDMA(GDR),将 GPU与GPU之间的带宽提高了 2 到 4 倍,延迟则降低了 6到10 倍。
IBM 还通过使用 RoCE 和 GDR 实施 RDMA,提高了 GPU-GPU 网络性能(图:IBM)
IBM 研究人员指出,“人工智能服务器的故障率高于许多传统云系统。而且,人工智能服务器发生故障的方式会让人意想不到(有时甚至难以检测)。此外,当节点(甚至单个 GPU)出现故障或性能下降时,可能会影响到在数百或数千个节点上运行的整个训练任务的性能。”IBM 研究团队成功提高了故障诊断能力,并将发现和解决问题的时间缩短了一半。
处理大型云故障的时间缩短一半(图:IBM)
下一步是什么?
IBM制定了计划应对Vela需求的不断增加。我们预计Vela的下一次重大升级将添加 H100 GPU甚至下一代 GPU(B100)。IBM Research还希望提供更具成本效益的推理处理基础设施,例如其自家研发的原型的“AIU”推理加速器原型。早期测试结果显示,AIU原型只需 40 瓦就能运行推理,其吞吐量与 A100 GPU 在该功率下的吞吐量相同。IBM 已在约克镇设施中部署了约 150 个 AIU并计划在技术成熟后将 AIU 的容量增加到 750 个以上。
结论
IBM 在各方面利用人工智能焕发活力,内部的人力资源咨询(Ask HR)和其他应用都用上了人工智能进行,IBM Z 的代码现代化也用了人工智能,IBM还利用人工智能为客户定制开发自己的基础模型。所有这些都帮助 IBM 积累了新的技能和专业知识,IBM并将其应用于客户咨询项目,取得了良好的效果。IBM 在大规模部署 AIU后将可能比其他云提供商更具竞争优势,原因是其他云提供商使用的推理技术更为昂贵,效率却不尽如人意。
如果三年前有人告诉我 IBM 将成为人工智能领域的主要参与者,我肯定不会相信。但到现在基于 IBM 在 watsonx 业务上取得的进展以及人工智能超级计算机Vela的相应增长,IBM 显然拥有正确的计划和技术,可以继续大幅增长旗下的人工智能业务。
好文章,需要你的鼓励
施耐德电气以“新质服务+产业向‘新’行”为主题,第六次参会,展示全新升级的“新质服务体系”,围绕创新驱动、生态协同和行业赋能三大核心领域,以全新升级的“新质服务体系”,助力中国产业向高端化、智能化、绿色化迈进。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。