云巨头AWS已经选择通过表格式Apache Iceberg将自家Redshift数据仓库向数据湖延伸,IBM旗下的Netezza上周也做出了相同的决定。
AWS透露称正对Netflix几年前推出的Iceberg表格式提供支持预览,允许用户通过Redshift对外部数据湖中的Apache Iceberg表执行分析查询。
“您现在可以使用Amazon Redshift查询AWS Glue数据目录中的Apache Iceberg表,而其他用户或应用程序可以使用Amazon EMR、Amazon Athena和AWS Glue等符合ACID原则的服务,以安全方式对表进行数据操作。”
但随附的用户指南在细则部分也提出了相关警告,称“仅限新的Iceberg表——不支持对由Apache Parquet表转换为Apache Iceberg表的分区进行查询,也不支持在查询中包含分区列。”
AWS随后又对如何使用该系统查询其云平台以外的数据做了进一步澄清。
“Amazon Redshift允许从AWS(包括Amazon S3)中的数据湖对指向Apache Iceberg的查询提供事务一致性。要对外部数据源(包括Google BigQuery或Google Cloud Stoarge等)运行分析,AWS客户可以使用Amazon Athena的预构建数据源连接器。”
AWS还表示,相关价格将根据Redshift Spectrum或Redshift Serverless的具体使用量而定。
Iceberg阵营迎来的另一位新成员是IBM Netezza,这是一款最初基于PostgreSQL且几乎已经被市场遗忘的数据仓库。我们最后一次听到Netezza的消息,还是在IBM于2010年收购Netezza并将该系统迁移至云端的时候。
IBM软件工程师Mike DeRoy在本周的博文中表示,用户可以使用IBM的watsonx.data智能湖仓技术创建Apache Iceberg格式的表,“允许任何兼容的引擎访问该数据,能够防止您对任何特定引擎产生供应商锁定”。
“IBM正将一流智能湖仓集成引入Netezza引擎,使您能够通过watsonx.data平台及其他数据湖平台查询Iceberg。”
目前,各大主流科技厂商似乎在支持哪种表格式方面存在严重分歧。面对将分析引擎引入任意位置数据这个共同的目标,Snowflake、Cloudera、谷歌,以及如今的AWS和Netezza明显站在了Iceberg一边。而微软、SAP和Databricks则选择了由Databricks创建,Linux基金会负责管理的开源表格式项目。
各家厂商都坚称,自己选择的格式更能反映客户的核心需求,借此证明其决定的合理性。他们还表示,将在未来时机成熟时支持更多格式选项,包括Apache Hudi。
唯一没有明确表态的就只剩下甲骨文了。本月早些时候,甲骨文方面表示正扩展其MySQL HeatWave以查询对象存储中保存的数据。当然,这里指的还是甲骨文自己的对象存储方案。但甲骨文也提到,有计划在未来支持更多开放表格式,可能会从Iceberg和Delta Lake起步。
好文章,需要你的鼓励
前沿AI研究机构Decart发布最新世界模型Oasis 3,旨在弥合虚拟仿真与物理AI之间的鸿沟。该模型将超写实交互图形能力与强大物理引擎相结合,可生成动作驱动的视频流,支持多视角环境模拟,延迟低于200毫秒。开发者能够借助自然语言提示,快速构建多样化极端场景,有效解决机器人和自动驾驶领域长期存在的"仿真到现实"差距问题,大幅降低物理AI训练成本。
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
Visual Components正式发布5.1版本工厂仿真软件,重点引入高精度物理仿真与可扩展机器人协同调度能力,支持在同一环境中同时模拟数百台自主移动机器人、自动导引车及人员的运行状态。新版本还将仿真性能提升至前代的10倍,新增Allen-Bradley PLC支持及Nachi、Epson机器人虚拟调试插件,并将脚本环境升级至Python 3。该软件旨在帮助制造商在实际部署前完成系统验证,降低调试风险,缩短投产周期。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。