中国存储软件供应商燕融为 HPC 和 AI 工作负载提供 YRCloudFile 分布式共享文件系统。通过将 KVCache 集成到文件系统中,燕融表示显著提升了 KV 缓存命中率和长上下文处理能力,降低了 AI 推理成本。
YRCloudFile 支持全闪存驱动器和 Nvidia 的 GPUDirect 协议。KVCache 是一种在 AI 模型推理阶段存储中间结果的方式,避免在每个阶段重新计算,从而缩短响应时间。
据了解,YRCloudFile 系统中的 KVCache 可能作为 GPU 服务器集群中的分布式内存层,用于存储经常访问的元数据(即键值对)。
为了验证 YRCloudFile KVCache 的性能,燕融使用公开数据集、行业标准基准测试工具和 NVIDIA GPU 硬件模拟了真实工作负载。结果表明,YRCloudFile KVCache 支持显著更高的并发查询吞吐量,为推理工作负载提供了具体、可量化的价值。
燕融进行了多阶段测试,比较了原生 vLLM 性能与集成 YRCloudFile KVCache 的 vLLM 在不同 token 数量和配置下的表现。
一项测试评估了单个查询在 8,000 至约 30,000 个 token 作为上下文输入时的总响应时间。随着上下文长度增加,使用 KVCache 的 YRCloudFile 在首个 Token 生成时间 (TTFT) 方面实现了 3 倍到超过 13 倍的性能提升。
第二项测试衡量了在 TTFT 值为 2 秒或更短时支持的并发查询数量。结果显示,YRCloudFile KVCache 与原生 vLLM 相比,支持的并发请求数量提高了 8 倍。
第三项测试结果表明,在高并发情况下,YRCloudFile KVCache 在不同上下文长度下实现了超过 4 倍的 TTFT 性能提升。
燕融表示,这些结果展示了"通过分布式存储扩展 GPU 内存如何突破传统计算瓶颈,实现资源利用率的指数级提升"。总的来说,"YRCloudFile KVCache 通过 PB 级缓存扩展将存储资源转化为计算优势,重新定义了 AI 推理的经济性"。
我们认为,YRCloudFile 的 KVCache 与 WEKA 的增强内存网格 (AMG) 有一些相似之处。AMG 是一个软件定义的文件系统扩展,提供了微秒级延迟的 Ex 级缓存容量和每秒数 TB 的带宽,实现接近内存速度的性能。
WEKA 的一篇博客提到,它"将 GPU 内存扩展到 WEKA 数据平台中的 token 仓库,提供接近内存速度的 PB 级持久存储。token 仓库为标记化数据提供持久的、基于 NVMe 的存储,使 AI 系统能够以接近内存的速度存储和检索 token"。
这"使您能够缓存 token 并以微秒级延迟将其传递到 GPU,驱动下一代 AI 工厂所需的大规模、低延迟推理和高效的计算重用"。AMG 的特点是:"在 NVMe 中持久存储标记化数据",而且"token 被存储起来,在推理时从'货架'上取出,而不是针对每个请求持续地按需重新生成"。
AMG "将 GPU 内存扩展为分布式高性能内存结构,提供微秒级延迟和大规模并行 I/O,这对于实时大规模存储和检索 token 至关重要"。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。