中国燕融将 KVCache 集成到文件系统以加速 AI 推理

中国存储软件供应商燕融科技将KVCache整合到其文件系统中，显著提升了KV缓存命中率和长上下文处理能力，降低了AI推理成本。通过在GPU服务器集群中部署分布式内存层存储元数据，燕融的YRCloudFile系统实现了高并发查询吞吐量，为推理工作负载带来了明显的性能提升。测试结果显示，该技术在首个令牌生成时间和并发查询支持方面均有数倍的改进。

中国存储软件供应商燕融为 HPC 和 AI 工作负载提供 YRCloudFile 分布式共享文件系统。通过将 KVCache 集成到文件系统中，燕融表示显著提升了 KV 缓存命中率和长上下文处理能力，降低了 AI 推理成本。

YRCloudFile 支持全闪存驱动器和 Nvidia 的 GPUDirect 协议。KVCache 是一种在 AI 模型推理阶段存储中间结果的方式，避免在每个阶段重新计算，从而缩短响应时间。

据了解，YRCloudFile 系统中的 KVCache 可能作为 GPU 服务器集群中的分布式内存层，用于存储经常访问的元数据（即键值对）。

为了验证 YRCloudFile KVCache 的性能，燕融使用公开数据集、行业标准基准测试工具和 NVIDIA GPU 硬件模拟了真实工作负载。结果表明，YRCloudFile KVCache 支持显著更高的并发查询吞吐量，为推理工作负载提供了具体、可量化的价值。

燕融进行了多阶段测试，比较了原生 vLLM 性能与集成 YRCloudFile KVCache 的 vLLM 在不同 token 数量和配置下的表现。

一项测试评估了单个查询在 8,000 至约 30,000 个 token 作为上下文输入时的总响应时间。随着上下文长度增加，使用 KVCache 的 YRCloudFile 在首个 Token 生成时间 (TTFT) 方面实现了 3 倍到超过 13 倍的性能提升。

第二项测试衡量了在 TTFT 值为 2 秒或更短时支持的并发查询数量。结果显示，YRCloudFile KVCache 与原生 vLLM 相比，支持的并发请求数量提高了 8 倍。

第三项测试结果表明，在高并发情况下，YRCloudFile KVCache 在不同上下文长度下实现了超过 4 倍的 TTFT 性能提升。

燕融表示，这些结果展示了"通过分布式存储扩展 GPU 内存如何突破传统计算瓶颈，实现资源利用率的指数级提升"。总的来说，"YRCloudFile KVCache 通过 PB 级缓存扩展将存储资源转化为计算优势，重新定义了 AI 推理的经济性"。

我们认为，YRCloudFile 的 KVCache 与 WEKA 的增强内存网格 (AMG) 有一些相似之处。AMG 是一个软件定义的文件系统扩展，提供了微秒级延迟的 Ex 级缓存容量和每秒数 TB 的带宽，实现接近内存速度的性能。

WEKA 的一篇博客提到，它"将 GPU 内存扩展到 WEKA 数据平台中的 token 仓库，提供接近内存速度的 PB 级持久存储。token 仓库为标记化数据提供持久的、基于 NVMe 的存储，使 AI 系统能够以接近内存的速度存储和检索 token"。

这"使您能够缓存 token 并以微秒级延迟将其传递到 GPU，驱动下一代 AI 工厂所需的大规模、低延迟推理和高效的计算重用"。AMG 的特点是："在 NVMe 中持久存储标记化数据"，而且"token 被存储起来，在推理时从'货架'上取出，而不是针对每个请求持续地按需重新生成"。

AMG "将 GPU 内存扩展为分布式高性能内存结构，提供微秒级延迟和大规模并行 I/O，这对于实时大规模存储和检索 token 至关重要"。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

中国燕融将 KVCache 集成到文件系统以加速 AI 推理

来源：BLOCKS & FILES

2025

04/14

11:11

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

Android Studio 企业版集成 Google Gemini，助力开发者更轻松设计企业应用

Adobe 将在 Photoshop 和 Premiere Pro 中加入 AI 智能助手

macOS 系统的 Siri 智能助手即将迎来重大更新

AI 将导致全球数据中心用电量在 2030 年前翻倍

Amazon CEO Andy Jassy 强调需投入数十亿美元建设 AI 基础设施

研究人员担忧 AI 模型隐藏其真实"推理"过程

ChatGPT 现可记忆并引用你所有的历史对话

与机器对话的人性代价：聊天机器人真的会关心人吗？

AI 分析师的崛起：为什么这可能是 AI 革命中最重要的职业

基于提示词的应用开发：为什么 AI 无法取代开发者 - Firebase Studio 就是最好的例证

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径