ZD至顶网软件频道消息:对于数据平台供应商,亚马逊是终极对手。如果你想在云计算市场中获得存在感,亚马逊的云就几乎是无法绕开的。因此,越来越多地Hadoop供应商与亚马逊的AWS以及微软的Azure合作就不是什么奇怪的事了。
对于Hortonworks来说,大约有四分之一的客户在云中部署了部分或者是全部的工作负载。到目前为止,其在云中主要的存在形式一直是Azure的HDInsight大数据服务的Hadoop引擎。
Hortonworks是最新加入与Amazon的竞争的,该公司宣布将通过AWS市场提供一项新服务,同时在本地运行S3存储和EC2计算。这项服务——针对AWS的Hortonworks Data Cloud (HDCloud)——是专门针对处理最流行的Hadoop工作负载:Spark和Hive的一项服务。
在AWS云中,Hadoop提供商面临的挑战是Amazon的EMR服务提供最原生的无缝体验。它是一种托管服务,意味着在您选择EC2节点的类型和数量后,EMR就开始提供了。相比之下,在Amazon云中使用作为原始基础架构即服务(IaaS)运行Hortonworks(或Cloudera)需要客户自己承担配置云基础架构和管理工作负载的负担。即使使用了有助于自动化配置的Hortonworks Cloudbreak或Cloudera Director,在易用性方面也难与 EMR抗衡,它使用的是HDFS而不是AWS的标准S3存储。
这正是HDCloud的立足点。通过AWS市场,你会得到和EMR更为类似的托管云计算体验,而且和EMR一样,你向亚马逊付款,而不是向Hortonworks付款(Hortonworks显然会从亚马逊获得版税)。它使用S3,所以它看起来像一个标准的AWS服务。
新的Hortonworks AWS产品不是完整的Hortonworks数据平台(HDP),因为该服务仅适用于最流行的工作负载:用于分析和机器学习的Spark,以及用于交互式SQL的Hive(使用新的LLAP加速)。
因此,HDCloud不是针对AWS的HDInsight的仿冒品。相比之下,HDInsight是一个更广泛的服务,提供了一个更完整的版本的Hortonworks Data Platform。除了Spark和Hive,HDInsight还运行Storm和HBase。此外,HDInsight的管理比新的Hortonworks AWS产品更全面;例如,Azure处理所有升级,而在AWS上,则需要更多的手动干预。
所有这一切的背后故事是,越来越多的云客户要求符合目标的替代品,而不是访问一个完整的平台。因此,今天,您将看到专业的机器学习服务,它提供了来自所有主要云提供商的一些建模算法,您可以看到来自Databricks等提供商的只针对Spark的服务,或Qubole提供的只针对Spark或者完整Hadoop的选项。这也为Spark和Hadoop的对决火上浇油。尽管HDP和HDInsight已经全面支持Spark,但是对于短暂工作负载的定制云服务的需求已经使Hortonworks缩小了其新亚马逊产品的侧重。
回到AWS,一个显而易见的问题是为什么使用HDCloud而不是默认为EMR?Hortonworks通过利用从Ambari借用的优化配置计算节点的功能优化了Hive和Spark工作负载,从而形成了差异。 Hortonworks还为Hive提供了更细粒度的安全性,针对行和列进行安全管理,这是一种提升。
EMR长期以来在自己的专有数据访问优化方面一直有优势。HDCloud利用Apache Hadoop 2.7附带的最新增强功能,针对S3实现了等同于EMR的性能。
一开始,HDCloud将通过年度合同或按小时收费。由于其现有的Cloudbreak技术(其中一些与新的AWS产品一起使用)已经支持现场实例,我们预计,HDCloud最终还将添加现场费用。请注意“针对AWS”这个品牌。如果HDCloud最终也通过其他公共云提供,我们不会感到惊讶。
请注意:此帖子的早期版本暗示Qubole只提供Spark服务。事实上,Spark只是更广泛的基于云的大数据分析产品组合中的一部分,包括完全与Hadoop相关的工作负载。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。