至顶网软件频道消息: 据IDC预测,全球数字信息总量将从现在的33ZB增长到2025年的175ZB。数据的快速增长引发了微软等云厂商的密切关注,这些厂商不仅有自己的数据,还有无数其他企业组织的数据。
为了减轻基础设施带来的压力,微软开发了一种用于压缩数据的尖端系统。今天上午,微软在一个名为Zipline的开源项目下发布了该系统的规范。
微软称,这项技术要比目前业界的常用的压缩软件强大得多。微软Azure硬件基础设施团队总经理Kushagra Vaid在博客文章中,把当下主流的Zlib工具作为对比参考。
Zlib是一个行业标准的压缩库,目前Linux内核、iOS和其他基础软件平台都采用了Zlib。Vaid表示,Zipline的数据压缩率高达是Zlib的2倍,而且,该系统的吞吐量也要高于其他主流压缩工具,并且延迟更低。
这就意味着Zipline可以将工作负载缩小到只是其大小的一部分。微软称,该系统把Azure上的应用程序存储量压缩了92%。对于其他类型的数据——例如来自联网设备的机器数据,Zipline的压缩率会更高。
微软将开源该系统的压缩算法,以及该算法设计运行定制硬件的规范,其中就包括Zipline表现数据操作的低级寄存器传输语言。
“我们预计,随着时间的推移,Project Zipline压缩技术被用于多个市场细分领域,以及网络数据处理、智能SSD、归档系统、云设备、通用微处理器、物联网和边缘设备等使用模式中,”Vaid这样写道。
Zipline并不是微软为开源社区贡献第一个Azure组件。此前,微软曾发布了用于一个人工智能引擎的代码,该引擎被用于支持Azure平台的一些服务。此外,微软开公开了自主研发的Cerberus芯片的原理图,该芯片可保护服务器固件防止被篡改。
好文章,需要你的鼓励
本文介绍了如何在Windows和macOS等主流操作系统上使用免费开源软件,无需更换操作系统即可摆脱付费订阅。文章推荐了Ninite等工具来安装免费软件,并详细介绍了Firefox、Thunderbird、LibreOffice、VLC等优秀的开源替代方案。作者强调虽然学习新工具需要时间投入,但从长远来看,使用不依赖订阅模式的替代工具将带来巨大回报。
这项由多伦多大学领导的研究首次系统性地揭示了分词器选择对语言模型性能的重大影响。通过训练14个仅在分词器上有差异的相同模型,并使用包含5000个现实场景测试样本的基准测试,研究发现分词器的算法设计比词汇表大小更重要,字符级处理虽然效率较低但稳定性更强,而Unicode格式化是所有分词器的普遍弱点。这一发现将推动AI系统基础组件的优化发展。
随着生成式人工智能系统提供直接答案而非链接列表,传统搜索引擎优化正面临重大变革。谷歌AI概述功能已覆盖约30%的美国搜索,导致网站点击率大幅下降。专家预测,到2030年AI将占B2B软件研究的70%以上。AI引擎更重视结构化数据、实体识别和权威性,而非传统的关键词和反向链接。营销人员需要采用实体权威工程等新策略来优化AI可见性。
北京大学研究团队提出NExT-Vid方法,首次将自回归下一帧预测引入视频AI预训练。通过创新的上下文隔离设计和流匹配解码器,让机器像人类一样预测视频下一帧来学习理解视频内容。该方法在四个标准数据集上全面超越现有生成式预训练方法,为视频推荐、智能监控、医疗诊断等应用提供了新的技术基础。