Hortonworks“来到了”亚马逊AWS上

对于Hortonworks来说,大约有四分之一的客户在云中部署了部分或者是全部的工作负载。到目前为止,其在云中主要的存在形式一直是Azure的HDInsight大数据服务的Hadoop引擎。

ZD至顶网软件频道消息:对于数据平台供应商,亚马逊是终极对手。如果你想在云计算市场中获得存在感,亚马逊的云就几乎是无法绕开的。因此,越来越多地Hadoop供应商与亚马逊的AWS以及微软的Azure合作就不是什么奇怪的事了。

 Hortonworks“来到了”亚马逊AWS上

对于Hortonworks来说,大约有四分之一的客户在云中部署了部分或者是全部的工作负载。到目前为止,其在云中主要的存在形式一直是Azure的HDInsight大数据服务的Hadoop引擎。

Hortonworks是最新加入与Amazon的竞争的,该公司宣布将通过AWS市场提供一项新服务,同时在本地运行S3存储和EC2计算。这项服务——针对AWS的Hortonworks Data Cloud (HDCloud)——是专门针对处理最流行的Hadoop工作负载:Spark和Hive的一项服务。

在AWS云中,Hadoop提供商面临的挑战是Amazon的EMR服务提供最原生的无缝体验。它是一种托管服务,意味着在您选择EC2节点的类型和数量后,EMR就开始提供了。相比之下,在Amazon云中使用作为原始基础架构即服务(IaaS)运行Hortonworks(或Cloudera)需要客户自己承担配置云基础架构和管理工作负载的负担。即使使用了有助于自动化配置的Hortonworks Cloudbreak或Cloudera Director,在易用性方面也难与 EMR抗衡,它使用的是HDFS而不是AWS的标准S3存储。

这正是HDCloud的立足点。通过AWS市场,你会得到和EMR更为类似的托管云计算体验,而且和EMR一样,你向亚马逊付款,而不是向Hortonworks付款(Hortonworks显然会从亚马逊获得版税)。它使用S3,所以它看起来像一个标准的AWS服务。

新的Hortonworks AWS产品不是完整的Hortonworks数据平台(HDP),因为该服务仅适用于最流行的工作负载:用于分析和机器学习的Spark,以及用于交互式SQL的Hive(使用新的LLAP加速)。

因此,HDCloud不是针对AWS的HDInsight的仿冒品。相比之下,HDInsight是一个更广泛的服务,提供了一个更完整的版本的Hortonworks Data Platform。除了Spark和Hive,HDInsight还运行Storm和HBase。此外,HDInsight的管理比新的Hortonworks AWS产品更全面;例如,Azure处理所有升级,而在AWS上,则需要更多的手动干预。

所有这一切的背后故事是,越来越多的云客户要求符合目标的替代品,而不是访问一个完整的平台。因此,今天,您将看到专业的机器学习服务,它提供了来自所有主要云提供商的一些建模算法,您可以看到来自Databricks等提供商的只针对Spark的服务,或Qubole提供的只针对Spark或者完整Hadoop的选项。这也为Spark和Hadoop的对决火上浇油。尽管HDP和HDInsight已经全面支持Spark,但是对于短暂工作负载的定制云服务的需求已经使Hortonworks缩小了其新亚马逊产品的侧重。

回到AWS,一个显而易见的问题是为什么使用HDCloud而不是默认为EMR?Hortonworks通过利用从Ambari借用的优化配置计算节点的功能优化了Hive和Spark工作负载,从而形成了差异。 Hortonworks还为Hive提供了更细粒度的安全性,针对行和列进行安全管理,这是一种提升。

EMR长期以来在自己的专有数据访问优化方面一直有优势。HDCloud利用Apache Hadoop 2.7附带的最新增强功能,针对S3实现了等同于EMR的性能。

一开始,HDCloud将通过年度合同或按小时收费。由于其现有的Cloudbreak技术(其中一些与新的AWS产品一起使用)已经支持现场实例,我们预计,HDCloud最终还将添加现场费用。请注意“针对AWS”这个品牌。如果HDCloud最终也通过其他公共云提供,我们不会感到惊讶。

请注意:此帖子的早期版本暗示Qubole只提供Spark服务。事实上,Spark只是更广泛的基于云的大数据分析产品组合中的一部分,包括完全与Hadoop相关的工作负载。

来源:ZD至顶网软件频道

0赞

好文章,需要你的鼓励

2016

11/21

16:33

分享

点赞

邮件订阅
白皮书