ZD至顶网软件频道消息:对于数据平台供应商,亚马逊是终极对手。如果你想在云计算市场中获得存在感,亚马逊的云就几乎是无法绕开的。因此,越来越多地Hadoop供应商与亚马逊的AWS以及微软的Azure合作就不是什么奇怪的事了。
对于Hortonworks来说,大约有四分之一的客户在云中部署了部分或者是全部的工作负载。到目前为止,其在云中主要的存在形式一直是Azure的HDInsight大数据服务的Hadoop引擎。
Hortonworks是最新加入与Amazon的竞争的,该公司宣布将通过AWS市场提供一项新服务,同时在本地运行S3存储和EC2计算。这项服务——针对AWS的Hortonworks Data Cloud (HDCloud)——是专门针对处理最流行的Hadoop工作负载:Spark和Hive的一项服务。
在AWS云中,Hadoop提供商面临的挑战是Amazon的EMR服务提供最原生的无缝体验。它是一种托管服务,意味着在您选择EC2节点的类型和数量后,EMR就开始提供了。相比之下,在Amazon云中使用作为原始基础架构即服务(IaaS)运行Hortonworks(或Cloudera)需要客户自己承担配置云基础架构和管理工作负载的负担。即使使用了有助于自动化配置的Hortonworks Cloudbreak或Cloudera Director,在易用性方面也难与 EMR抗衡,它使用的是HDFS而不是AWS的标准S3存储。
这正是HDCloud的立足点。通过AWS市场,你会得到和EMR更为类似的托管云计算体验,而且和EMR一样,你向亚马逊付款,而不是向Hortonworks付款(Hortonworks显然会从亚马逊获得版税)。它使用S3,所以它看起来像一个标准的AWS服务。
新的Hortonworks AWS产品不是完整的Hortonworks数据平台(HDP),因为该服务仅适用于最流行的工作负载:用于分析和机器学习的Spark,以及用于交互式SQL的Hive(使用新的LLAP加速)。
因此,HDCloud不是针对AWS的HDInsight的仿冒品。相比之下,HDInsight是一个更广泛的服务,提供了一个更完整的版本的Hortonworks Data Platform。除了Spark和Hive,HDInsight还运行Storm和HBase。此外,HDInsight的管理比新的Hortonworks AWS产品更全面;例如,Azure处理所有升级,而在AWS上,则需要更多的手动干预。
所有这一切的背后故事是,越来越多的云客户要求符合目标的替代品,而不是访问一个完整的平台。因此,今天,您将看到专业的机器学习服务,它提供了来自所有主要云提供商的一些建模算法,您可以看到来自Databricks等提供商的只针对Spark的服务,或Qubole提供的只针对Spark或者完整Hadoop的选项。这也为Spark和Hadoop的对决火上浇油。尽管HDP和HDInsight已经全面支持Spark,但是对于短暂工作负载的定制云服务的需求已经使Hortonworks缩小了其新亚马逊产品的侧重。
回到AWS,一个显而易见的问题是为什么使用HDCloud而不是默认为EMR?Hortonworks通过利用从Ambari借用的优化配置计算节点的功能优化了Hive和Spark工作负载,从而形成了差异。 Hortonworks还为Hive提供了更细粒度的安全性,针对行和列进行安全管理,这是一种提升。
EMR长期以来在自己的专有数据访问优化方面一直有优势。HDCloud利用Apache Hadoop 2.7附带的最新增强功能,针对S3实现了等同于EMR的性能。
一开始,HDCloud将通过年度合同或按小时收费。由于其现有的Cloudbreak技术(其中一些与新的AWS产品一起使用)已经支持现场实例,我们预计,HDCloud最终还将添加现场费用。请注意“针对AWS”这个品牌。如果HDCloud最终也通过其他公共云提供,我们不会感到惊讶。
请注意:此帖子的早期版本暗示Qubole只提供Spark服务。事实上,Spark只是更广泛的基于云的大数据分析产品组合中的一部分,包括完全与Hadoop相关的工作负载。
好文章,需要你的鼓励
Docker公司发布重大新功能,旨在简化智能体AI应用的构建、运行和部署。公司扩展了Docker Compose工具以支持AI智能体和模型的大规模部署,并推出Docker Offload服务,允许开发者将AI工作负载转移到云端。新功能还支持模型上下文协议网关的安全连接,并与谷歌云、微软Azure等合作伙伴集成。
这项研究首次将在线强化学习成功应用于流匹配模型,通过巧妙的ODE到SDE转换和去噪减少策略,显著提升了AI图像生成的精确度和可控性。在复合场景生成、文字渲染等任务上取得突破性进展,为AI生成领域开辟了新的技术路径。
欧盟发布AI法案实施细则,要求谷歌、Meta、OpenAI等公司承诺不使用盗版材料训练AI,详细披露训练数据来源和模型设计理念。新规还要求公司尊重付费墙和网站爬虫限制,公开训练和推理的总能耗,并在5-10天内向欧盟AI办公室报告安全事件。违规企业可能面临年销售额7%或3%的罚款。
这篇由阿里巴巴集团联合多所知名高校发表的综述论文,系统梳理了统一多模态理解与生成模型的最新发展。研究将现有模型分为扩散、自回归和混合三大类型,详细分析了不同图像编码策略的特点,整理了相关数据集和评估基准,并深入探讨了当前面临的技术挑战。