云巨头AWS已经选择通过表格式Apache Iceberg将自家Redshift数据仓库向数据湖延伸,IBM旗下的Netezza上周也做出了相同的决定。
AWS透露称正对Netflix几年前推出的Iceberg表格式提供支持预览,允许用户通过Redshift对外部数据湖中的Apache Iceberg表执行分析查询。
“您现在可以使用Amazon Redshift查询AWS Glue数据目录中的Apache Iceberg表,而其他用户或应用程序可以使用Amazon EMR、Amazon Athena和AWS Glue等符合ACID原则的服务,以安全方式对表进行数据操作。”
但随附的用户指南在细则部分也提出了相关警告,称“仅限新的Iceberg表——不支持对由Apache Parquet表转换为Apache Iceberg表的分区进行查询,也不支持在查询中包含分区列。”
AWS随后又对如何使用该系统查询其云平台以外的数据做了进一步澄清。
“Amazon Redshift允许从AWS(包括Amazon S3)中的数据湖对指向Apache Iceberg的查询提供事务一致性。要对外部数据源(包括Google BigQuery或Google Cloud Stoarge等)运行分析,AWS客户可以使用Amazon Athena的预构建数据源连接器。”
AWS还表示,相关价格将根据Redshift Spectrum或Redshift Serverless的具体使用量而定。
Iceberg阵营迎来的另一位新成员是IBM Netezza,这是一款最初基于PostgreSQL且几乎已经被市场遗忘的数据仓库。我们最后一次听到Netezza的消息,还是在IBM于2010年收购Netezza并将该系统迁移至云端的时候。
IBM软件工程师Mike DeRoy在本周的博文中表示,用户可以使用IBM的watsonx.data智能湖仓技术创建Apache Iceberg格式的表,“允许任何兼容的引擎访问该数据,能够防止您对任何特定引擎产生供应商锁定”。
“IBM正将一流智能湖仓集成引入Netezza引擎,使您能够通过watsonx.data平台及其他数据湖平台查询Iceberg。”
目前,各大主流科技厂商似乎在支持哪种表格式方面存在严重分歧。面对将分析引擎引入任意位置数据这个共同的目标,Snowflake、Cloudera、谷歌,以及如今的AWS和Netezza明显站在了Iceberg一边。而微软、SAP和Databricks则选择了由Databricks创建,Linux基金会负责管理的开源表格式项目。
各家厂商都坚称,自己选择的格式更能反映客户的核心需求,借此证明其决定的合理性。他们还表示,将在未来时机成熟时支持更多格式选项,包括Apache Hudi。
唯一没有明确表态的就只剩下甲骨文了。本月早些时候,甲骨文方面表示正扩展其MySQL HeatWave以查询对象存储中保存的数据。当然,这里指的还是甲骨文自己的对象存储方案。但甲骨文也提到,有计划在未来支持更多开放表格式,可能会从Iceberg和Delta Lake起步。
好文章,需要你的鼓励
字节跳动智能创作实验室发布革命性AI视频数据集Phantom-Data,解决视频生成中的"复制粘贴"问题。该数据集包含100万个跨场景身份一致配对,通过三阶段构建流程实现主体检测、多元化检索和身份验证,显著提升文本遵循能力和视频质量。
ByteDance智能创作实验室发布的Phantom-Data是首个大规模跨情境主体一致性视频生成数据集,包含约100万个身份一致配对样本。该数据集通过创新的三阶段构建管道,从5300万视频和30亿图像中精选高质量跨场景配对,有效解决AI视频生成中的"复制粘贴"问题,显著提升文本遵循能力和视觉质量。
被盗凭证导致80%的企业数据泄露。随着AI智能体投入生产,管理10万员工的企业将需要处理超过100万个身份。传统身份访问管理架构无法应对智能体AI的大规模部署。领先厂商正采用蓝牙低功耗技术替代硬件令牌,实现基于距离的身份验证。行为分析可实时捕获被入侵的智能体,零信任架构扩展至智能体部署。这代表了自云计算普及以来最重要的安全变革。
普林斯顿大学研究团队开发了ReasonFlux-PRM,这是首个能深度理解AI复杂思维过程的评分系统。不同于传统只看最终答案的评估方法,新系统能评判AI思考轨迹的每个步骤质量,在数学和科学推理任务上实现了平均4.5%-12.1%的性能提升,为AI教育和训练提供了突破性的解决方案。