上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。这家占主导地位的云平台提供商推出了 S3 Tables,用于将数据存储在开放表格式(OTF)的 Apache Iceberg 中,从而使开发人员和数据工程师能够将他们所选择的分析引擎带到他们的数据中,而不是移动数据——无论数据位于何处。
dbInsight的首席分析师Tony Baer认为,此举对于将分析、机器学习和S3存储的数据整合到一个环境中意义重大。他表示,这样一来,AWS对SageMaker进行了重新定位,并将其从人工智能开发人员的工作空间扩展到数据与人工智能相结合的环境。
现在,SageMaker是一个将AWS查询引擎、各种数据源和开发工具整合在一起的平台。他表示:“以前,你可以在(AWS 数据仓库)Redshift中专门访问在SageMaker中开发的模型,但每一个都是点对点连接。”“有了SageMaker,现在他们为我们提供了一个‘伞’,把我们都联系在一起,而不仅仅是流于表面。他们实际上已经深入到引擎盖下面,针对单一数据源进行真正的集成。”
Baer还指出,SageMaker Data Lakehouse代表了Apache Iceberg的“全面实施”,这是一种用于分析的开放式表格格式,源于Netflix项目。Iceberg成为S3上的默认数据存储,因此用户可以将查询推送到数据所在的位置,包括Redshift的本地托管存储。
AWS 此前曾表示赞成将Iceberg作为默认表格式,它是Linux基金会的Delta Lake(由 Databricks开发)的竞争对手。2023年8月,AWS表示Redshift可以在AWS Glue Data Catalog中查询 Apache Iceberg 表,不过它增加了一些注意事项。
AWS上周对Iceberg的进一步承诺再次表明,Apache项目将在与Delta Lake的竞争中胜出,而Delta Lake也受到了微软Fabric环境和企业软件巨头SAP的青睐,不过这两家供应商都提供了一些在两种格式之间工作的方法。
Baer表示,虽然Databricks的首席执行官Ali Ghodsi极具竞争力,但他也是一个实用主义者。Databricks斥资10亿美元收购了由Ryan Blue和其他来自Netflix的Iceberg开发人员共同创办的Tabular公司。尽管有人担心这次收购会导致Iceberg变得支离破碎,Databricks会将其开发从Apache项目转向自己的表格格式,但这些担心似乎并未成真。
Baer表示:“好消息是,这种情况显然没有发生。”
Baer表示,尽管一些供应商已经站在了Iceberg的背后,尤其是Snowflake和Cloudera,但任何供应商在格式竞争中都没有特别的优势。
“他们都已经意识到,不会因为一个表格格式决定自己产品的成败;这就像在TCPIP上竞争一样,没有任何不同。”
今年早些时候,Blue表示,长远来看Iceberg和Delta将彼此融合,但这需要几年时间。与此同时,Databricks提供了UniForm,该产品旨在像读取 Apache Iceberg 数据一样读取存储在 Delta中的数据,以帮助两种格式之间的互操作。
随着供应商在表格格式上实现新的和谐,以及AWS加强了对Iceberg的支持,也许市场将更接近于实现无需移动数据即可将任何分析引擎应用于任何数据的承诺,这正是Cloudera和 Snowflake在推广其对表格格式的支持时提出的想法。
但 Baer表示,这条路上可能还有其他绊脚石。“行动将在目录层面展开,即进入Iceberg REST API,这是Iceberg的基本技术元数据目录。目录是查询引擎提供商可以实现差异化的地方,因此我认为这条路会比较坎坷。”
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。