AWS已正式发布Mountpoint,一套用于Linux系统的开源客户端,能使用文件API接入S3存储,帮助应用程序像在文件系统中遍历S3文件。请注意,Mountpoint并非针对常规用例所设计,而是专门的数据分析客户端。AWS此前曾介绍称,“使用Mountpoint,文件操作将被映射至指向S3的GET和PUT操作,无需任何代码更改即可将基于文件系统的吞吐量扩展至每秒TB级别。”
Mountpoint演示
但其中也有一些限制。首先,预览版文件系统目前只能以只读方式挂载,其他要正式版发布后才能实现。
AWS在关于Mountpoint的论文中解释道,Mountpoint在设计上故意不提供“功能完备的文件系统或POSIX兼容性”,原因在于文件系统具有“与对象存储相悖且数量惊人的独特属性”,包括会改变文件内容的功能和系统管理操作权限等。因此,Mountpoint决定专注于性能优化,避免任何无法通过S3 API直接执行的操作。论文中提到,Mountpoint的理想用例是“对大型数据集进行横向扩展分析的数据湖类应用”。
文中还说,Mountpoint属于开源项目,使用Rust语言构建而成。早期客户也有意“帮助改进,让Mountpoint获得更丰富的功能”。
Mountpoint遵循S3权限和访问策略,因此需要使用AWS凭证。一种可能性是将IAM(身份和访问管理)角色添加至EC2实例,这样就能自动应用凭证信息。
问题是,市面上已经存在大量第三方客户端,AWS为什么还要费力构建自己的文件系统客户端?毕竟S3FS-FUSE已经能够支持Linux、macOS和FreeBSD等系统,商用ObjectiveFS系统和Rclone则面向Windows平台。
AWS副总裁兼S3总经理Kevin Miller在采访中表示,“客户希望获得更好的性能、稳定性,以及对各类连接工具的官方支持。我们审视了所有连接方案,意识到最好还是从零开始构建新的工具选项。我们以AWS Common Runtime为构建基础,这是我们的SDK库。我们还选择用Rust来编写,这就保证了在不牺牲本机代码性能的前提下获得类型检查和其他内置质量保障优势。”Miller还补充称,Mountpoint受益于“自动推理……可验证S3强一致性等正确性指标。”
很明显,AWS对Mountpoint的实际效果相当满意,其代码将成为“我们过去17年间所见到过的、所有工程软件层面的最佳实践,能够满足大型客户提出的可靠性标准。”
除了Mountpoint,AWS还为S3引入了其他六项新功能,借此纪念S3全面上市17周年(最初亮相于2006年3月14日圆周率日),具体包括:
AWS S3存储目前承载着超280万亿个对象,平均接收过亿个请求。AWS仍在支持初始S3 API,但自首次推出以来也增加了许多新功能。
Miller告诉我们,存储桶配置错误已经成为不少安全问题的根源,但AWS正在努力解决。“今年我们正在调整新存储桶的默认设置,现在的存储桶会默认启用我们的「阻止公共访问」选项。”另外,所有新对象也都将默认加密。
AWS又是如何看待S3 API一步步成长为某种意义上的行业标准?例如,OpenStack就在其对象存储上模拟了S3 REST API。
Miller认为,“其他人对S3 API的复制,其实就是对它价值和实用性的一种重要肯定。但也有一些东西,比如增强校验和支持,包括我们多年来添加的其他功能……其他厂商可能与之兼容、也可能不兼容,但我们认为这些已经不是当下必不可少的核心功能了。”
那AWS会考虑将S3 API或者其中一部分作为官方标准吗?
Miller的回答是,“如果客户真的迫切需要,那我们当然愿意。但我们也有其他很多重要工作需要关注。”
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
加拿大女王大学研究团队首次对开源AI生态系统进行端到端许可证合规审计,发现35.5%的AI模型在集成到应用时存在许可证违规。他们开发的LicenseRec系统能自动检测冲突并修复86.4%的违规问题,揭示了AI供应链中系统性的"许可证漂移"现象及其法律风险。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
这项由剑桥大学、清华大学和伊利诺伊大学合作的研究首次将扩散大语言模型引入语音识别领域,开发出Whisper-LLaDA系统。该系统具备双向理解能力,能够同时考虑语音的前后文信息,在LibriSpeech数据集上实现了12.3%的错误率相对改进,同时在大多数配置下提供了更快的推理速度,为语音识别技术开辟了新的发展方向。