IBM 研究部门 IBM Research将旗下人工智能超级计算机 Vela (IBM云的一部分)的容量增加了一倍,以应对 watsonx 模型的强劲增长,IBM Research还制定了积极的计划,利用自家研发的加速器 IBM AIU 继续扩展和增强人工智能推理能力。
IBM研究院一年前宣布建立用于训练基于英伟达A100 GPU的人工智能基础模型的大型云基础设施,名为Vela。IBM 客户正在迅速采用人工智能技术,目前已有数百个开发项目正在使用 IBM watsonx。IBM 在去年的一次分析师活动上分享了一些令人印象深刻的成功案例,并正在吸引更多的人工智能项目加入他们的管道。IBM 首席执行Arvind Krishna在最近的财报电话会议上表示,watsonx 的管道规模自上一季度以来大约翻了一番。
IBM Research 日前完成了 Vela 的第一阶段升级,并且计划继续进行升级,以满足业界对训练更大规模基础模型的需求。IBM Research 提供了有关细节,为其他希望在控制成本的同时升级人工智能基础架构的公司提供了宝贵的经验。
新的 Vela
最初的 Vela 配备了总数不详的 GPU 和英特尔至强 CPU,都是通过标准的 2x100G 以太网 NICS 互连。IBM Research 放弃了性能更好、成本更高的 Infiniband,以更低的资本成本展示了接近裸金属的性能,同时实现了 Kubernetes 的云标准容器支持。
人工智能超级计算机Vela,专门用于基础模型研究和客户端模型开发(图:IBM)
为了处理不断增加的负载,IBM 的研究人员面临的选择是:用更多的 Nvidia A100 GPU 升级 Vela或全部换成速度更快的 H100。IBM 的研究人员意识到,如果实施功率封顶策略,就可以在相同的可用功率范围内将每个机架的 GPU 数量增加一倍,进而可以提高 GPU 的密度。
新的 Vela 云每个机架有 6 x 8 个 GPU 节点(图:IBM)
IBM 研究人员确定了要将 GPU 数量翻倍的计划后,就需要在不拆除网卡和交换机的情况下解决网络带宽问题。为此,他们部署了以太网 RDMA 和英伟达 GPU-Direct RDMA(GDR),将 GPU与GPU之间的带宽提高了 2 到 4 倍,延迟则降低了 6到10 倍。
IBM 还通过使用 RoCE 和 GDR 实施 RDMA,提高了 GPU-GPU 网络性能(图:IBM)
IBM 研究人员指出,“人工智能服务器的故障率高于许多传统云系统。而且,人工智能服务器发生故障的方式会让人意想不到(有时甚至难以检测)。此外,当节点(甚至单个 GPU)出现故障或性能下降时,可能会影响到在数百或数千个节点上运行的整个训练任务的性能。”IBM 研究团队成功提高了故障诊断能力,并将发现和解决问题的时间缩短了一半。
处理大型云故障的时间缩短一半(图:IBM)
下一步是什么?
IBM制定了计划应对Vela需求的不断增加。我们预计Vela的下一次重大升级将添加 H100 GPU甚至下一代 GPU(B100)。IBM Research还希望提供更具成本效益的推理处理基础设施,例如其自家研发的原型的“AIU”推理加速器原型。早期测试结果显示,AIU原型只需 40 瓦就能运行推理,其吞吐量与 A100 GPU 在该功率下的吞吐量相同。IBM 已在约克镇设施中部署了约 150 个 AIU并计划在技术成熟后将 AIU 的容量增加到 750 个以上。
结论
IBM 在各方面利用人工智能焕发活力,内部的人力资源咨询(Ask HR)和其他应用都用上了人工智能进行,IBM Z 的代码现代化也用了人工智能,IBM还利用人工智能为客户定制开发自己的基础模型。所有这些都帮助 IBM 积累了新的技能和专业知识,IBM并将其应用于客户咨询项目,取得了良好的效果。IBM 在大规模部署 AIU后将可能比其他云提供商更具竞争优势,原因是其他云提供商使用的推理技术更为昂贵,效率却不尽如人意。
如果三年前有人告诉我 IBM 将成为人工智能领域的主要参与者,我肯定不会相信。但到现在基于 IBM 在 watsonx 业务上取得的进展以及人工智能超级计算机Vela的相应增长,IBM 显然拥有正确的计划和技术,可以继续大幅增长旗下的人工智能业务。
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
Patronus AI发布突破性研究,构建了首个系统性AI代理错误评估体系TRAIL,涵盖148个真实案例和21种错误类型。研究发现即使最先进的AI模型在复杂任务错误识别上准确率仅11%,揭示了当前AI代理系统在长文本处理、推理能力和自我监控方面的重大局限,为构建更可靠的AI系统指明方向。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
这项研究首次从理论和实践证明AI模型可通过模仿生物睡眠-学习周期显著提升性能。研究发现AI训练中存在自发的"记忆-压缩循环",并据此开发了GAPT算法,在大语言模型预训练中实现4.8%性能提升和70%表示效率改善,在算术泛化任务中提升35%,为AI发展指出了注重信息整理而非单纯数据扩展的新方向。