ZD至顶网软件频道消息:对于数据平台供应商,亚马逊是终极对手。如果你想在云计算市场中获得存在感,亚马逊的云就几乎是无法绕开的。因此,越来越多地Hadoop供应商与亚马逊的AWS以及微软的Azure合作就不是什么奇怪的事了。
对于Hortonworks来说,大约有四分之一的客户在云中部署了部分或者是全部的工作负载。到目前为止,其在云中主要的存在形式一直是Azure的HDInsight大数据服务的Hadoop引擎。
Hortonworks是最新加入与Amazon的竞争的,该公司宣布将通过AWS市场提供一项新服务,同时在本地运行S3存储和EC2计算。这项服务——针对AWS的Hortonworks Data Cloud (HDCloud)——是专门针对处理最流行的Hadoop工作负载:Spark和Hive的一项服务。
在AWS云中,Hadoop提供商面临的挑战是Amazon的EMR服务提供最原生的无缝体验。它是一种托管服务,意味着在您选择EC2节点的类型和数量后,EMR就开始提供了。相比之下,在Amazon云中使用作为原始基础架构即服务(IaaS)运行Hortonworks(或Cloudera)需要客户自己承担配置云基础架构和管理工作负载的负担。即使使用了有助于自动化配置的Hortonworks Cloudbreak或Cloudera Director,在易用性方面也难与 EMR抗衡,它使用的是HDFS而不是AWS的标准S3存储。
这正是HDCloud的立足点。通过AWS市场,你会得到和EMR更为类似的托管云计算体验,而且和EMR一样,你向亚马逊付款,而不是向Hortonworks付款(Hortonworks显然会从亚马逊获得版税)。它使用S3,所以它看起来像一个标准的AWS服务。
新的Hortonworks AWS产品不是完整的Hortonworks数据平台(HDP),因为该服务仅适用于最流行的工作负载:用于分析和机器学习的Spark,以及用于交互式SQL的Hive(使用新的LLAP加速)。
因此,HDCloud不是针对AWS的HDInsight的仿冒品。相比之下,HDInsight是一个更广泛的服务,提供了一个更完整的版本的Hortonworks Data Platform。除了Spark和Hive,HDInsight还运行Storm和HBase。此外,HDInsight的管理比新的Hortonworks AWS产品更全面;例如,Azure处理所有升级,而在AWS上,则需要更多的手动干预。
所有这一切的背后故事是,越来越多的云客户要求符合目标的替代品,而不是访问一个完整的平台。因此,今天,您将看到专业的机器学习服务,它提供了来自所有主要云提供商的一些建模算法,您可以看到来自Databricks等提供商的只针对Spark的服务,或Qubole提供的只针对Spark或者完整Hadoop的选项。这也为Spark和Hadoop的对决火上浇油。尽管HDP和HDInsight已经全面支持Spark,但是对于短暂工作负载的定制云服务的需求已经使Hortonworks缩小了其新亚马逊产品的侧重。
回到AWS,一个显而易见的问题是为什么使用HDCloud而不是默认为EMR?Hortonworks通过利用从Ambari借用的优化配置计算节点的功能优化了Hive和Spark工作负载,从而形成了差异。 Hortonworks还为Hive提供了更细粒度的安全性,针对行和列进行安全管理,这是一种提升。
EMR长期以来在自己的专有数据访问优化方面一直有优势。HDCloud利用Apache Hadoop 2.7附带的最新增强功能,针对S3实现了等同于EMR的性能。
一开始,HDCloud将通过年度合同或按小时收费。由于其现有的Cloudbreak技术(其中一些与新的AWS产品一起使用)已经支持现场实例,我们预计,HDCloud最终还将添加现场费用。请注意“针对AWS”这个品牌。如果HDCloud最终也通过其他公共云提供,我们不会感到惊讶。
请注意:此帖子的早期版本暗示Qubole只提供Spark服务。事实上,Spark只是更广泛的基于云的大数据分析产品组合中的一部分,包括完全与Hadoop相关的工作负载。
好文章,需要你的鼓励
在“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场以“AIGC创作新范式——双脑智能时代:心智驱动的生产力变革”为主题的分论坛,成为现场最具张力的对话空间。
人民大学团队开发了Search-o1框架,让AI在推理时能像侦探一样边查资料边思考。系统通过检测不确定性词汇自动触发搜索,并用知识精炼模块从海量资料中提取关键信息无缝融入推理过程。在博士级科学问题测试中,该系统整体准确率达63.6%,在物理和生物领域甚至超越人类专家水平,为AI推理能力带来突破性提升。
Linux Mint团队计划加快发布周期,在未来几个月推出两个新版本。LMDE 7代号"Gigi"基于Debian 13开发,将包含libAdapta库以支持Gtk4应用的主题功能。新版本将停止提供32位版本支持。同时Cinnamon桌面的Wayland支持持续改进,在菜单、状态小程序和键盘输入处理方面表现更佳,有望成为完整支持Wayland的重要桌面环境之一。
Anthropic研究团队开发的REINFORCE++算法通过采用全局优势标准化解决了AI训练中的"过度拟合"问题。该算法摒弃了传统PPO方法中昂贵的价值网络组件,用统一评价标准替代针对单个问题的局部基准,有效避免了"奖励破解"现象。实验显示,REINFORCE++在处理新问题时表现更稳定,特别是在长文本推理和工具集成场景中展现出优异的泛化能力,为开发更实用可靠的AI系统提供了新思路。