上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。这家占主导地位的云平台提供商推出了 S3 Tables,用于将数据存储在开放表格式(OTF)的 Apache Iceberg 中,从而使开发人员和数据工程师能够将他们所选择的分析引擎带到他们的数据中,而不是移动数据——无论数据位于何处。
dbInsight的首席分析师Tony Baer认为,此举对于将分析、机器学习和S3存储的数据整合到一个环境中意义重大。他表示,这样一来,AWS对SageMaker进行了重新定位,并将其从人工智能开发人员的工作空间扩展到数据与人工智能相结合的环境。
现在,SageMaker是一个将AWS查询引擎、各种数据源和开发工具整合在一起的平台。他表示:“以前,你可以在(AWS 数据仓库)Redshift中专门访问在SageMaker中开发的模型,但每一个都是点对点连接。”“有了SageMaker,现在他们为我们提供了一个‘伞’,把我们都联系在一起,而不仅仅是流于表面。他们实际上已经深入到引擎盖下面,针对单一数据源进行真正的集成。”
Baer还指出,SageMaker Data Lakehouse代表了Apache Iceberg的“全面实施”,这是一种用于分析的开放式表格格式,源于Netflix项目。Iceberg成为S3上的默认数据存储,因此用户可以将查询推送到数据所在的位置,包括Redshift的本地托管存储。
AWS 此前曾表示赞成将Iceberg作为默认表格式,它是Linux基金会的Delta Lake(由 Databricks开发)的竞争对手。2023年8月,AWS表示Redshift可以在AWS Glue Data Catalog中查询 Apache Iceberg 表,不过它增加了一些注意事项。
AWS上周对Iceberg的进一步承诺再次表明,Apache项目将在与Delta Lake的竞争中胜出,而Delta Lake也受到了微软Fabric环境和企业软件巨头SAP的青睐,不过这两家供应商都提供了一些在两种格式之间工作的方法。
Baer表示,虽然Databricks的首席执行官Ali Ghodsi极具竞争力,但他也是一个实用主义者。Databricks斥资10亿美元收购了由Ryan Blue和其他来自Netflix的Iceberg开发人员共同创办的Tabular公司。尽管有人担心这次收购会导致Iceberg变得支离破碎,Databricks会将其开发从Apache项目转向自己的表格格式,但这些担心似乎并未成真。
Baer表示:“好消息是,这种情况显然没有发生。”
Baer表示,尽管一些供应商已经站在了Iceberg的背后,尤其是Snowflake和Cloudera,但任何供应商在格式竞争中都没有特别的优势。
“他们都已经意识到,不会因为一个表格格式决定自己产品的成败;这就像在TCPIP上竞争一样,没有任何不同。”
今年早些时候,Blue表示,长远来看Iceberg和Delta将彼此融合,但这需要几年时间。与此同时,Databricks提供了UniForm,该产品旨在像读取 Apache Iceberg 数据一样读取存储在 Delta中的数据,以帮助两种格式之间的互操作。
随着供应商在表格格式上实现新的和谐,以及AWS加强了对Iceberg的支持,也许市场将更接近于实现无需移动数据即可将任何分析引擎应用于任何数据的承诺,这正是Cloudera和 Snowflake在推广其对表格格式的支持时提出的想法。
但 Baer表示,这条路上可能还有其他绊脚石。“行动将在目录层面展开,即进入Iceberg REST API,这是Iceberg的基本技术元数据目录。目录是查询引擎提供商可以实现差异化的地方,因此我认为这条路会比较坎坷。”
好文章,需要你的鼓励
杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。