上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。这家占主导地位的云平台提供商推出了 S3 Tables,用于将数据存储在开放表格式(OTF)的 Apache Iceberg 中,从而使开发人员和数据工程师能够将他们所选择的分析引擎带到他们的数据中,而不是移动数据——无论数据位于何处。
dbInsight的首席分析师Tony Baer认为,此举对于将分析、机器学习和S3存储的数据整合到一个环境中意义重大。他表示,这样一来,AWS对SageMaker进行了重新定位,并将其从人工智能开发人员的工作空间扩展到数据与人工智能相结合的环境。
现在,SageMaker是一个将AWS查询引擎、各种数据源和开发工具整合在一起的平台。他表示:“以前,你可以在(AWS 数据仓库)Redshift中专门访问在SageMaker中开发的模型,但每一个都是点对点连接。”“有了SageMaker,现在他们为我们提供了一个‘伞’,把我们都联系在一起,而不仅仅是流于表面。他们实际上已经深入到引擎盖下面,针对单一数据源进行真正的集成。”
Baer还指出,SageMaker Data Lakehouse代表了Apache Iceberg的“全面实施”,这是一种用于分析的开放式表格格式,源于Netflix项目。Iceberg成为S3上的默认数据存储,因此用户可以将查询推送到数据所在的位置,包括Redshift的本地托管存储。
AWS 此前曾表示赞成将Iceberg作为默认表格式,它是Linux基金会的Delta Lake(由 Databricks开发)的竞争对手。2023年8月,AWS表示Redshift可以在AWS Glue Data Catalog中查询 Apache Iceberg 表,不过它增加了一些注意事项。
AWS上周对Iceberg的进一步承诺再次表明,Apache项目将在与Delta Lake的竞争中胜出,而Delta Lake也受到了微软Fabric环境和企业软件巨头SAP的青睐,不过这两家供应商都提供了一些在两种格式之间工作的方法。
Baer表示,虽然Databricks的首席执行官Ali Ghodsi极具竞争力,但他也是一个实用主义者。Databricks斥资10亿美元收购了由Ryan Blue和其他来自Netflix的Iceberg开发人员共同创办的Tabular公司。尽管有人担心这次收购会导致Iceberg变得支离破碎,Databricks会将其开发从Apache项目转向自己的表格格式,但这些担心似乎并未成真。
Baer表示:“好消息是,这种情况显然没有发生。”
Baer表示,尽管一些供应商已经站在了Iceberg的背后,尤其是Snowflake和Cloudera,但任何供应商在格式竞争中都没有特别的优势。
“他们都已经意识到,不会因为一个表格格式决定自己产品的成败;这就像在TCPIP上竞争一样,没有任何不同。”
今年早些时候,Blue表示,长远来看Iceberg和Delta将彼此融合,但这需要几年时间。与此同时,Databricks提供了UniForm,该产品旨在像读取 Apache Iceberg 数据一样读取存储在 Delta中的数据,以帮助两种格式之间的互操作。
随着供应商在表格格式上实现新的和谐,以及AWS加强了对Iceberg的支持,也许市场将更接近于实现无需移动数据即可将任何分析引擎应用于任何数据的承诺,这正是Cloudera和 Snowflake在推广其对表格格式的支持时提出的想法。
但 Baer表示,这条路上可能还有其他绊脚石。“行动将在目录层面展开,即进入Iceberg REST API,这是Iceberg的基本技术元数据目录。目录是查询引擎提供商可以实现差异化的地方,因此我认为这条路会比较坎坷。”
好文章,需要你的鼓励
谷歌今日发布Gemini Enterprise,这是一个集成了先进AI模型、聊天机器人和智能代理的一体化企业平台。该平台提供统一聊天界面,可安全连接各种数据源,包括Google Workspace、Microsoft 365等企业应用。平台内置超过1500个AI代理,支持无代码构建工具,用户可创建自动化工作流程。标准版年费每席位每月30美元起。
华中科技大学联合华为和上海交大研究团队开发出革命性3D人体重建系统Snap-Snap,仅需正面和背面两张照片即可在190毫秒内生成完整3D人像。该技术突破了传统方法对昂贵设备和复杂人体先验模型的依赖,通过智能几何推理和侧面增强算法实现高质量重建,为虚拟现实、游戏开发等领域的大众化应用奠定基础。
OpenAI推出的AI视频生成应用Sora在不到五天内下载量突破100万次,增长速度超过ChatGPT。该应用类似TikTok,提供无限垂直视频流,但所有视频均由AI生成。用户只需输入提示词即可创建10秒视频,还可通过Cameo功能制作个人视频。尽管目前仅在北美地区开放且需要邀请码使用,但已引发版权争议和娱乐行业反弹。
这项研究介绍了aiXiv——首个专为AI科学家设计的开放学术平台。该平台由多伦多大学等18个机构联合开发,支持AI独立完成论文提交、同行评审和发表全流程。通过多智能体架构和五阶段安全防护机制,平台实现了81%的评判准确率,并显著提升了AI生成研究的质量。这标志着科学研究范式的重大转变。