AWS已正式发布Mountpoint,一套用于Linux系统的开源客户端,能使用文件API接入S3存储,帮助应用程序像在文件系统中遍历S3文件。请注意,Mountpoint并非针对常规用例所设计,而是专门的数据分析客户端。AWS此前曾介绍称,“使用Mountpoint,文件操作将被映射至指向S3的GET和PUT操作,无需任何代码更改即可将基于文件系统的吞吐量扩展至每秒TB级别。”

Mountpoint演示
但其中也有一些限制。首先,预览版文件系统目前只能以只读方式挂载,其他要正式版发布后才能实现。
AWS在关于Mountpoint的论文中解释道,Mountpoint在设计上故意不提供“功能完备的文件系统或POSIX兼容性”,原因在于文件系统具有“与对象存储相悖且数量惊人的独特属性”,包括会改变文件内容的功能和系统管理操作权限等。因此,Mountpoint决定专注于性能优化,避免任何无法通过S3 API直接执行的操作。论文中提到,Mountpoint的理想用例是“对大型数据集进行横向扩展分析的数据湖类应用”。
文中还说,Mountpoint属于开源项目,使用Rust语言构建而成。早期客户也有意“帮助改进,让Mountpoint获得更丰富的功能”。
Mountpoint遵循S3权限和访问策略,因此需要使用AWS凭证。一种可能性是将IAM(身份和访问管理)角色添加至EC2实例,这样就能自动应用凭证信息。
问题是,市面上已经存在大量第三方客户端,AWS为什么还要费力构建自己的文件系统客户端?毕竟S3FS-FUSE已经能够支持Linux、macOS和FreeBSD等系统,商用ObjectiveFS系统和Rclone则面向Windows平台。
AWS副总裁兼S3总经理Kevin Miller在采访中表示,“客户希望获得更好的性能、稳定性,以及对各类连接工具的官方支持。我们审视了所有连接方案,意识到最好还是从零开始构建新的工具选项。我们以AWS Common Runtime为构建基础,这是我们的SDK库。我们还选择用Rust来编写,这就保证了在不牺牲本机代码性能的前提下获得类型检查和其他内置质量保障优势。”Miller还补充称,Mountpoint受益于“自动推理……可验证S3强一致性等正确性指标。”
很明显,AWS对Mountpoint的实际效果相当满意,其代码将成为“我们过去17年间所见到过的、所有工程软件层面的最佳实践,能够满足大型客户提出的可靠性标准。”
除了Mountpoint,AWS还为S3引入了其他六项新功能,借此纪念S3全面上市17周年(最初亮相于2006年3月14日圆周率日),具体包括:
AWS S3存储目前承载着超280万亿个对象,平均接收过亿个请求。AWS仍在支持初始S3 API,但自首次推出以来也增加了许多新功能。
Miller告诉我们,存储桶配置错误已经成为不少安全问题的根源,但AWS正在努力解决。“今年我们正在调整新存储桶的默认设置,现在的存储桶会默认启用我们的「阻止公共访问」选项。”另外,所有新对象也都将默认加密。
AWS又是如何看待S3 API一步步成长为某种意义上的行业标准?例如,OpenStack就在其对象存储上模拟了S3 REST API。
Miller认为,“其他人对S3 API的复制,其实就是对它价值和实用性的一种重要肯定。但也有一些东西,比如增强校验和支持,包括我们多年来添加的其他功能……其他厂商可能与之兼容、也可能不兼容,但我们认为这些已经不是当下必不可少的核心功能了。”
那AWS会考虑将S3 API或者其中一部分作为官方标准吗?
Miller的回答是,“如果客户真的迫切需要,那我们当然愿意。但我们也有其他很多重要工作需要关注。”
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。