上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。这家占主导地位的云平台提供商推出了 S3 Tables,用于将数据存储在开放表格式(OTF)的 Apache Iceberg 中,从而使开发人员和数据工程师能够将他们所选择的分析引擎带到他们的数据中,而不是移动数据——无论数据位于何处。
dbInsight的首席分析师Tony Baer认为,此举对于将分析、机器学习和S3存储的数据整合到一个环境中意义重大。他表示,这样一来,AWS对SageMaker进行了重新定位,并将其从人工智能开发人员的工作空间扩展到数据与人工智能相结合的环境。
现在,SageMaker是一个将AWS查询引擎、各种数据源和开发工具整合在一起的平台。他表示:“以前,你可以在(AWS 数据仓库)Redshift中专门访问在SageMaker中开发的模型,但每一个都是点对点连接。”“有了SageMaker,现在他们为我们提供了一个‘伞’,把我们都联系在一起,而不仅仅是流于表面。他们实际上已经深入到引擎盖下面,针对单一数据源进行真正的集成。”
Baer还指出,SageMaker Data Lakehouse代表了Apache Iceberg的“全面实施”,这是一种用于分析的开放式表格格式,源于Netflix项目。Iceberg成为S3上的默认数据存储,因此用户可以将查询推送到数据所在的位置,包括Redshift的本地托管存储。
AWS 此前曾表示赞成将Iceberg作为默认表格式,它是Linux基金会的Delta Lake(由 Databricks开发)的竞争对手。2023年8月,AWS表示Redshift可以在AWS Glue Data Catalog中查询 Apache Iceberg 表,不过它增加了一些注意事项。
AWS上周对Iceberg的进一步承诺再次表明,Apache项目将在与Delta Lake的竞争中胜出,而Delta Lake也受到了微软Fabric环境和企业软件巨头SAP的青睐,不过这两家供应商都提供了一些在两种格式之间工作的方法。
Baer表示,虽然Databricks的首席执行官Ali Ghodsi极具竞争力,但他也是一个实用主义者。Databricks斥资10亿美元收购了由Ryan Blue和其他来自Netflix的Iceberg开发人员共同创办的Tabular公司。尽管有人担心这次收购会导致Iceberg变得支离破碎,Databricks会将其开发从Apache项目转向自己的表格格式,但这些担心似乎并未成真。
Baer表示:“好消息是,这种情况显然没有发生。”
Baer表示,尽管一些供应商已经站在了Iceberg的背后,尤其是Snowflake和Cloudera,但任何供应商在格式竞争中都没有特别的优势。
“他们都已经意识到,不会因为一个表格格式决定自己产品的成败;这就像在TCPIP上竞争一样,没有任何不同。”
今年早些时候,Blue表示,长远来看Iceberg和Delta将彼此融合,但这需要几年时间。与此同时,Databricks提供了UniForm,该产品旨在像读取 Apache Iceberg 数据一样读取存储在 Delta中的数据,以帮助两种格式之间的互操作。
随着供应商在表格格式上实现新的和谐,以及AWS加强了对Iceberg的支持,也许市场将更接近于实现无需移动数据即可将任何分析引擎应用于任何数据的承诺,这正是Cloudera和 Snowflake在推广其对表格格式的支持时提出的想法。
但 Baer表示,这条路上可能还有其他绊脚石。“行动将在目录层面展开,即进入Iceberg REST API,这是Iceberg的基本技术元数据目录。目录是查询引擎提供商可以实现差异化的地方,因此我认为这条路会比较坎坷。”
好文章,需要你的鼓励
Citrix宣布通过XenServer产品重返主流虚拟化市场,尽管该公司承认产品尚未完全就绪。云软件集团表示XenServer正扩大支持范围以涵盖各类工作负载。Citrix早在2010年代初就基本放弃了XenServer作为主流虚拟化产品的定位。产品管理高级总监认为当前虚拟化市场正经历前所未有的变化,特别是主要厂商的激进许可变更给IT预算带来压力,为Citrix提供了重返市场的机会。
这项研究首次将在线强化学习成功应用于流匹配模型,通过巧妙的ODE到SDE转换和去噪减少策略,显著提升了AI图像生成的精确度和可控性。在复合场景生成、文字渲染等任务上取得突破性进展,为AI生成领域开辟了新的技术路径。
Docker公司发布重大新功能,旨在简化智能体AI应用的构建、运行和部署。公司扩展了Docker Compose工具以支持AI智能体和模型的大规模部署,并推出Docker Offload服务,允许开发者将AI工作负载转移到云端。新功能还支持模型上下文协议网关的安全连接,并与谷歌云、微软Azure等合作伙伴集成。
这篇由阿里巴巴集团联合多所知名高校发表的综述论文,系统梳理了统一多模态理解与生成模型的最新发展。研究将现有模型分为扩散、自回归和混合三大类型,详细分析了不同图像编码策略的特点,整理了相关数据集和评估基准,并深入探讨了当前面临的技术挑战。