云巨头AWS已经选择通过表格式Apache Iceberg将自家Redshift数据仓库向数据湖延伸,IBM旗下的Netezza上周也做出了相同的决定。
AWS透露称正对Netflix几年前推出的Iceberg表格式提供支持预览,允许用户通过Redshift对外部数据湖中的Apache Iceberg表执行分析查询。
“您现在可以使用Amazon Redshift查询AWS Glue数据目录中的Apache Iceberg表,而其他用户或应用程序可以使用Amazon EMR、Amazon Athena和AWS Glue等符合ACID原则的服务,以安全方式对表进行数据操作。”
但随附的用户指南在细则部分也提出了相关警告,称“仅限新的Iceberg表——不支持对由Apache Parquet表转换为Apache Iceberg表的分区进行查询,也不支持在查询中包含分区列。”
AWS随后又对如何使用该系统查询其云平台以外的数据做了进一步澄清。
“Amazon Redshift允许从AWS(包括Amazon S3)中的数据湖对指向Apache Iceberg的查询提供事务一致性。要对外部数据源(包括Google BigQuery或Google Cloud Stoarge等)运行分析,AWS客户可以使用Amazon Athena的预构建数据源连接器。”
AWS还表示,相关价格将根据Redshift Spectrum或Redshift Serverless的具体使用量而定。
Iceberg阵营迎来的另一位新成员是IBM Netezza,这是一款最初基于PostgreSQL且几乎已经被市场遗忘的数据仓库。我们最后一次听到Netezza的消息,还是在IBM于2010年收购Netezza并将该系统迁移至云端的时候。
IBM软件工程师Mike DeRoy在本周的博文中表示,用户可以使用IBM的watsonx.data智能湖仓技术创建Apache Iceberg格式的表,“允许任何兼容的引擎访问该数据,能够防止您对任何特定引擎产生供应商锁定”。
“IBM正将一流智能湖仓集成引入Netezza引擎,使您能够通过watsonx.data平台及其他数据湖平台查询Iceberg。”
目前,各大主流科技厂商似乎在支持哪种表格式方面存在严重分歧。面对将分析引擎引入任意位置数据这个共同的目标,Snowflake、Cloudera、谷歌,以及如今的AWS和Netezza明显站在了Iceberg一边。而微软、SAP和Databricks则选择了由Databricks创建,Linux基金会负责管理的开源表格式项目。
各家厂商都坚称,自己选择的格式更能反映客户的核心需求,借此证明其决定的合理性。他们还表示,将在未来时机成熟时支持更多格式选项,包括Apache Hudi。
唯一没有明确表态的就只剩下甲骨文了。本月早些时候,甲骨文方面表示正扩展其MySQL HeatWave以查询对象存储中保存的数据。当然,这里指的还是甲骨文自己的对象存储方案。但甲骨文也提到,有计划在未来支持更多开放表格式,可能会从Iceberg和Delta Lake起步。
好文章,需要你的鼓励
微软在Ignite 2025大会上预览了Windows的重要更新,显示出操作系统向支持AI智能体的根本性转变。新增功能包括原生支持模型上下文协议(MCP)、智能体连接器注册表、明确的权限管控模型,以及独立的智能体工作空间。这些更新建立了OS级别的身份验证、授权和审计机制,让智能体能够安全地执行文件操作和系统设置等任务,同时保持可控性和可追溯性。
瑞士洛桑联邦理工学院研究团队开发出"稳定视频无限"技术,通过创新的"错误循环利用"方法解决了AI视频生成长度限制问题。该技术让AI在训练时主动学习处理各种错误,从而能够生成任意长度的高质量视频内容,支持复杂场景转换和多模态控制,为内容创作、教育和娱乐行业带来revolutionary变革。
苹果即将发布的macOS Tahoe 26.2系统将支持通过雷雳5连接多台Mac设备,构建低延迟AI超算集群。该功能支持Mac Studio、M4 Pro Mac mini和MacBook Pro等设备。四台Mac Studio可高效运行万亿参数的Kimi-K2-Thinking模型,功耗不到500瓦,比传统GPU集群低10倍。此外,MLX项目将获得M5芯片神经加速器的完整访问权限。
华为诺亚实验室等机构联合提出了一种创新的AI训练方法,通过双层优化框架让AI从数据中自动学习评价标准。该方法结合了传统最大似然估计和强化学习的优势,在表格分类和模型驱动强化学习任务中展现出更好的收敛性和泛化能力,为解决强化学习中缺乏明确奖励信号的问题提供了新思路。