云巨头AWS已经选择通过表格式Apache Iceberg将自家Redshift数据仓库向数据湖延伸,IBM旗下的Netezza上周也做出了相同的决定。
AWS透露称正对Netflix几年前推出的Iceberg表格式提供支持预览,允许用户通过Redshift对外部数据湖中的Apache Iceberg表执行分析查询。
“您现在可以使用Amazon Redshift查询AWS Glue数据目录中的Apache Iceberg表,而其他用户或应用程序可以使用Amazon EMR、Amazon Athena和AWS Glue等符合ACID原则的服务,以安全方式对表进行数据操作。”
但随附的用户指南在细则部分也提出了相关警告,称“仅限新的Iceberg表——不支持对由Apache Parquet表转换为Apache Iceberg表的分区进行查询,也不支持在查询中包含分区列。”
AWS随后又对如何使用该系统查询其云平台以外的数据做了进一步澄清。
“Amazon Redshift允许从AWS(包括Amazon S3)中的数据湖对指向Apache Iceberg的查询提供事务一致性。要对外部数据源(包括Google BigQuery或Google Cloud Stoarge等)运行分析,AWS客户可以使用Amazon Athena的预构建数据源连接器。”
AWS还表示,相关价格将根据Redshift Spectrum或Redshift Serverless的具体使用量而定。
Iceberg阵营迎来的另一位新成员是IBM Netezza,这是一款最初基于PostgreSQL且几乎已经被市场遗忘的数据仓库。我们最后一次听到Netezza的消息,还是在IBM于2010年收购Netezza并将该系统迁移至云端的时候。
IBM软件工程师Mike DeRoy在本周的博文中表示,用户可以使用IBM的watsonx.data智能湖仓技术创建Apache Iceberg格式的表,“允许任何兼容的引擎访问该数据,能够防止您对任何特定引擎产生供应商锁定”。
“IBM正将一流智能湖仓集成引入Netezza引擎,使您能够通过watsonx.data平台及其他数据湖平台查询Iceberg。”
目前,各大主流科技厂商似乎在支持哪种表格式方面存在严重分歧。面对将分析引擎引入任意位置数据这个共同的目标,Snowflake、Cloudera、谷歌,以及如今的AWS和Netezza明显站在了Iceberg一边。而微软、SAP和Databricks则选择了由Databricks创建,Linux基金会负责管理的开源表格式项目。
各家厂商都坚称,自己选择的格式更能反映客户的核心需求,借此证明其决定的合理性。他们还表示,将在未来时机成熟时支持更多格式选项,包括Apache Hudi。
唯一没有明确表态的就只剩下甲骨文了。本月早些时候,甲骨文方面表示正扩展其MySQL HeatWave以查询对象存储中保存的数据。当然,这里指的还是甲骨文自己的对象存储方案。但甲骨文也提到,有计划在未来支持更多开放表格式,可能会从Iceberg和Delta Lake起步。
好文章,需要你的鼓励
Linux Mint 22.1 Xia 终于发布,虽然比预期晚了一些,但带来了多项改进。新版本基于 Ubuntu 24.04,提供 Cinnamon、MATE 和 Xfce 三个桌面版本。主要更新包括新的 Apt 包管理工具和改进的电源管理。Cinnamon 桌面升级到 6.4.6 版本,支持实验性 Wayland。
随着AI技术的广泛应用,其安全性和可靠性问题日益凸显。为此,思科和英伟达近期推出了一系列新工具,旨在解决AI模型可能存在的漏洞,如内容不当、话题偏离和越狱等问题,以提升AI系统的安全性和可控性。这些工具将为企业提供更可靠的AI应用保障。
英国替代网络运营商Netomnia集团在2024年实现快速增长,服务范围扩大至208万户,收入同比增长321%。同时,CityFibre开始在肯特郡偏远地区为超5万户提供全光纤宽带服务,这是政府"千兆项目"的一部分。这些举措将显著提升英国的宽带网络覆盖和速度,推动数字经济发展。
微软开始向用户设备分发 Windows 11 24H2,标志着操作系统推广进入新阶段。虽然企业用户暂不受影响,但家庭版和专业版用户将自动升级。尽管用户可选择推迟更新时间,但最终都将安装该版本。然而,这次更新并非一帆风顺,微软正面临一系列已知问题的挑战。