AWS选择Iceberg联合分析平台

上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。

上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。这家占主导地位的云平台提供商推出了 S3 Tables,用于将数据存储在开放表格式(OTF)的 Apache Iceberg 中,从而使开发人员和数据工程师能够将他们所选择的分析引擎带到他们的数据中,而不是移动数据——无论数据位于何处。

dbInsight的首席分析师Tony Baer认为,此举对于将分析、机器学习和S3存储的数据整合到一个环境中意义重大。他表示,这样一来,AWS对SageMaker进行了重新定位,并将其从人工智能开发人员的工作空间扩展到数据与人工智能相结合的环境。

现在,SageMaker是一个将AWS查询引擎、各种数据源和开发工具整合在一起的平台。他表示:“以前,你可以在(AWS 数据仓库)Redshift中专门访问在SageMaker中开发的模型,但每一个都是点对点连接。”“有了SageMaker,现在他们为我们提供了一个‘伞’,把我们都联系在一起,而不仅仅是流于表面。他们实际上已经深入到引擎盖下面,针对单一数据源进行真正的集成。”

Baer还指出,SageMaker Data Lakehouse代表了Apache Iceberg的“全面实施”,这是一种用于分析的开放式表格格式,源于Netflix项目。Iceberg成为S3上的默认数据存储,因此用户可以将查询推送到数据所在的位置,包括Redshift的本地托管存储。

AWS 此前曾表示赞成将Iceberg作为默认表格式,它是Linux基金会的Delta Lake(由 Databricks开发)的竞争对手。2023年8月,AWS表示Redshift可以在AWS Glue Data Catalog中查询 Apache Iceberg 表,不过它增加了一些注意事项。

AWS上周对Iceberg的进一步承诺再次表明,Apache项目将在与Delta Lake的竞争中胜出,而Delta Lake也受到了微软Fabric环境和企业软件巨头SAP的青睐,不过这两家供应商都提供了一些在两种格式之间工作的方法。

Baer表示,虽然Databricks的首席执行官Ali Ghodsi极具竞争力,但他也是一个实用主义者。Databricks斥资10亿美元收购了由Ryan Blue和其他来自Netflix的Iceberg开发人员共同创办的Tabular公司。尽管有人担心这次收购会导致Iceberg变得支离破碎,Databricks会将其开发从Apache项目转向自己的表格格式,但这些担心似乎并未成真。

Baer表示:“好消息是,这种情况显然没有发生。”

Baer表示,尽管一些供应商已经站在了Iceberg的背后,尤其是Snowflake和Cloudera,但任何供应商在格式竞争中都没有特别的优势。

“他们都已经意识到,不会因为一个表格格式决定自己产品的成败;这就像在TCPIP上竞争一样,没有任何不同。”

今年早些时候,Blue表示,长远来看Iceberg和Delta将彼此融合,但这需要几年时间。与此同时,Databricks提供了UniForm,该产品旨在像读取 Apache Iceberg 数据一样读取存储在 Delta中的数据,以帮助两种格式之间的互操作。

随着供应商在表格格式上实现新的和谐,以及AWS加强了对Iceberg的支持,也许市场将更接近于实现无需移动数据即可将任何分析引擎应用于任何数据的承诺,这正是Cloudera和 Snowflake在推广其对表格格式的支持时提出的想法。

但 Baer表示,这条路上可能还有其他绊脚石。“行动将在目录层面展开,即进入Iceberg REST API,这是Iceberg的基本技术元数据目录。目录是查询引擎提供商可以实现差异化的地方,因此我认为这条路会比较坎坷。”

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2025

01/03

10:53

分享

点赞

邮件订阅