IBM发布基于watsonx.data和Storage Scale的加速AI平台

IBM将数据湖仓与并行文件系统的功能结合，同时借助其watsonx.data及Storage Scale产品构建起可扩展、基于机器学习的AI处理与分析数据存储平台。

IBM声称，这套方案通过GDS（GPU直接存储）与英伟达GPU实现了极致的AI性能，可以更快完成生成式AI模型的训练。该方案支持多协议，可实现更简单的工作流程，为分析及AI工作负载提供统一的数据平台，且系统还支持使用客户专有数据实现检索增强生成（RAG）。

蓝色巨人的watsonx.data是一套数据湖仓，其将数据湖的丰富功能（即基于商用服务器的横向扩展架构，实现了对大量结构化及非结构化数据的存储和处理能力）与数据仓库的卓越性能融为一体。其支持Apache Iceberg开放表格式，使得多种不同处理引擎得以同时访问相同的数据源。

Storage Scale是一种并行且横向扩展的文件系统，早期名称为GPFS。它被用作watsonx.data的底层存储方案，在文件访问覆盖层之下提供对象存储能力。Storage Scale v5.2.1还拥有非容器化的高性能S3协议服务，使其在功能完备性方面更进了一步。

如何合而为一

根据IBM发布的图表，黄框部分具体展示了更新后的软件组件构成：

其中包含彼此分享的独立计算层与存储层。在计算方面，watsonx.data用例采取红帽OpenShift容器集群基础，其中包含Presto与Spark。Presto使用分布式SQL查询引擎以提供数据湖分析功能，而Spark则属于内存内的大数据处理与分析资源。

该层中还包含负责提供共享元数据服务的Hive Metastore以及一项Milvus向量数据库采取行动。Milvus用于访问客户驻留在Storage Scale上的潜在大规模数据集，借此实现检索增强生成（RAG）。

独立的存储基础设施当中则包含三大主要元素：用于保存数据的Storage Scale文件系统集群；用于实现存储抽象及加速机制的Active File Management（AFM）；以及用于高性能对象访问的S3数据访问协议服务。

其中S3服务将对象存储桶暴露给watsonx.data，以便附加至Presto或Spark等查询引擎。其中S3对象映射至文件，存储桶映射至Storage Scale内的目录，反之亦然。

S3存储桶可以是存储层内的本地存储，也可以由Storage Scale通过外部对象存储进行缓存（借此实现加速），这些对象存储可能分散在各种云、数据中心及其他位置。在任一情况下，多个Spark及Presto引擎实例均可使用S3协议接入Storage Scale层以访问各存储桶内的数据。

AFM还具备本地缓存功能，并支持跨集群共享数据，能够在文件集层次上对远程S3存储桶进行虚拟化。它在Storage Scale集群中实现了全局命名空间，并可在该命名空间当中包含NFS数据源。远程存储桶将在Storage Scale文件系统下显示为本地存储桶，且位于公共存储命名空间之下，因此无需额外往来复制数据。

远程S3存储桶的虚拟化依赖于基于NooBaa开源软件的Storage Scale 高性能S3方案。这是一款用于x86服务器及存储的对象存储软件，以类似S3的云服务形式呈现。NooBaa于2018年被红帽公司收购，负责在混合多云环境中对存储基础设施进行抽象处理。它还提供数据存储服务管理，红帽将其作为OpenShift Data Foundation（ODF）产品集中的一部分。IBM于2019年收购了红帽公司，并将ODF与原有Spectrum Scale及Spectrum Protect数据保护容器化版本一道，添加至其当时的Spectrum Fusion产品线（现已更名为Storage Fusion）当中。

如今，NooBaa作为一个可定制的动态对象数据网关，可配合任意存储资源（包括S3、GCS、Azure Blob、文件系统等）提供缓存、分层、镜像、重复数据删除、加密及压缩等数据服务。

Storage Scale的高性能对象S3服务针对多协议数据访问进行了优化，因此取代了Storage Scale中早期基于Swift的对象S3及容器化S3服务实现。Storage Scale中的集群导出服务（CES）设施则通过CES节点管理并实现高可用性。

多层架构

IBM表示，Storage Scale存储可划分为多个性能层次，借以优化成本及性能。例如可以设一个用于高频数据的高性能层次，以及一个用于长期存储及归档的经济型层次或磁带存储，同时配合跨层次间的数据自动放置策略，由此为实际应用程序提供无缝且透明的分层支持。

这套将watsonx.data与Storage Scale合而为一的系统，提供了一个统一且彼此独立的计算与存储平台，能够在平台之上运行用于训练和推理的AI应用程序。这就使得IBM成为整套必要软件的单一来源，对于很多企业客户来说能够大大降低管理成本和复杂度。目前戴尔、HPE、联想、NetApp、MinIO和Pure等厂商纷纷推出自己的AI数据平台方案，VAST Data也在积极筹备相应的数据引擎产品。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

IBM发布基于watsonx.data和Storage Scale的加速AI平台

来源：至顶网软件与服务频道

2024

09/04

10:36

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

AI 竞争加剧，GPT-4.5 发布：数据效率成为关键

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

为帮助 AI 理解世界，研究人员将其装入机器人

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会