谷歌研究院发布TurboQuant压缩算法,可将AI模型内存使用量减少6倍,在相同GPU数量下提升8倍处理速度,且不损失准确性。该技术无需重新训练或微调,可直接集成到现有推理管道中。消息发布后内存芯片股价大跌,DDR5内存价格下降15%-30%。不过分析师提醒,这仍是研究突破而非成熟产品,实际应用效果有待验证。
谷歌发布TurboQuant AI数据压缩技术,通过优化键值缓存存储,将推理内存消耗减少至少6倍。该技术结合极坐标量化和约翰逊-林登施特劳斯量化方法,可将KV缓存压缩至2.5位精度,同时保持模型质量。虽然能提升AI推理集群效率,但分析师认为随着长上下文应用需求增长,该技术不会降低对DRAM和NAND存储器的整体需求。
随着AI成本因内存等计算组件价格飙升而急剧上涨,谷歌推出TurboQuant技术创新方案。该技术通过量化压缩大幅减少AI模型的内存使用量,特别是针对占用大量内存的键值缓存进行实时压缩,在保持精度的同时将内存需求降低6倍。虽然TurboQuant可能降低单个AI实例的成本,但专家认为根据杰文斯悖论,效率提升往往导致整体资源使用增加,因此可能不会减缓AI投资增长。
随着AI热潮推动数据中心建设,内存价格飙升,开发者需要重新审视软件的内存消耗问题。现代简单网页需要数兆字节显示基本内容,Windows任务管理器从85KB膨胀到6MB,这种软件臃肿现象日益严重。开发者应精确评估框架需求,注重效率优化,管理者需为此提供空间。正如1970年代能源短缺促进了效率提升,当前的内存短缺或许能推动软件摆脱不必要的冗余,回归精简高效。
Kioxia 发布开源 AiSAQ 技术,旨在降低生成式 AI 系统中的 DRAM 需求。该技术为 SSD 优化的近似最近邻搜索算法,可直接在 SSD 上搜索,无需将索引数据放入 DRAM,从而实现检索增强生成 (RAG) 的可扩展性能。这一创新有望大幅提升大规模 RAG 应用的性能范围。
微软研究人员提出了一种新的内存技术——管理保留内存 (MRM),旨在解决 AI 基础模型工作负载的存储和 IO 问题。MRM 具有短期数据持久性,可优化 AI 推理性能,同时降低能耗和成本。这一创新概念有望填补现有内存-存储层级中的空白,为 AI 时代的内存技术发展开辟新方向。