科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道产业观察英特尔马子雅:Spark与Hadoop合体变大生态系统

英特尔马子雅:Spark与Hadoop合体变大生态系统

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

过去一般说大数据,我们首先想到的就是在数据中心里面来运算、处理大数据。英特尔公司软件与服务事业部大数据技术中心全球总经理马子雅认为,“其实不是的,现在说大数据,是一个大的生态系统。”

作者:邓晓蕾 来源:ZDNet软件频道【原创】 2015年7月10日

关键字: Hadoop Spark 大数据 马子雅 英特尔

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网软件频道消息 原创文章(文/邓晓蕾): 万物互联的物联网是目前助力“互联网+”的关键技术之一。它生成的网络不仅在规模上空前庞大,也将时时刻刻不间断地产出海量数据信息。据思科预测,至2020年全球就将有500亿台设备实现互联,产生总计为ZB级的数据。作为全球计算力创新的引领者,英特尔在大数据领域深耕已久,在日前第十三届软交会上,英特尔公司软件与服务事业部大数据技术中心全球总经理马子雅女士接受ZDNet至顶网的采访,聊聊关于在“互联网+”创新过程中,英特尔在大数据方面的一些贡献。

英特尔马子雅:Spark与Hadoop合体变大生态系统

英特尔公司软件与服务事业部大数据技术中心全球总经理马子雅女士

大数据,是一个大的生态系统

过去一般说大数据,我们首先想到的就是在数据中心里面来运算、处理大数据。英特尔公司软件与服务事业部大数据技术中心全球总经理马子雅认为,“其实不是的,现在说大数据,是一个大的生态系统。”她介绍,从客户端,尤其是物联网这个移动互联的这些设备,当数据一开始收集,就有一些智能设备,甚至自己可以做一些简单的数据处理,都不需要把数据送到数据中心去。当然,有时候也有复杂的运算就送到数据中心去用云分析或者后台分析。所以从终端到云计算或者数据中心,已经成为完整的有机整体,不可能说只处理数据中心的数据。

数据首先是从终端来的,包括可穿戴设备,手机、PC等都是可以收集这些数据,这可以看做是一个有机联系的主体。她强调,从端到端,从物联网一直到最后的数据中心这样一个完全的数据处理的功能,实时的数据分析的功能,这几个方面不可能独立存在,而是一个非常完整的整体,是相互依存的关系。

开源里的大数据有五个趋势

提到现在做的大数据,离不开在开源里的工作,马子雅认为有五个方向:

一是,分析。机器学习,包括人工智能,都统划到分析、应用这块。

其次,是Spark。在几年之前Hadoop是特别热的,慢慢的Hadoop加入了Spark的成份,她称,因为Hadoop的数据处理的模块叫MapReduce,它的运行速度不是特别令人满意。当Spark开始进入了人们的视野,尤其是spark利用对内存直接进行运算,在特定的情况下运行速度甚至可以达到MapReduce的上百倍。基于这样的原因, Hadoop加上Spark开始越来越受到重视。

三是,SQL。很多最终的应用程序最后都需编写出来,可目前整个软件开发社区的程序员,对SQL语言更了解,几乎不需要重新学习。

四是,存储。现在主要是讲HDFS,过去讲数据和处理的程序要在同一个节点上。随着硬件技术的发展,网络速度更快,以及存储的memory技术也越来越快,现在不要求一定数据跟处理它的程序在同一个节点上,更多的开始说分布式内存系统。

五是,云实现。怎么样把大数据跟云计算更好的结合在一起。

Spark很重要,但不可能独立存在于Hadoop之外

谈到英特尔对Spark的重视是否说明“Spark”是大数据最好的一个应用平台,马子雅称,英特尔做Spark已经做了很久,在全球仅次于DataBricks和AMPLab,英特尔在中国应当是最领先的。

“Spark本身不可能独立存在于Hadoop之外。”马子雅认为,Spark需要用Hadoop的HDFS的存储结构,甚至Hadoop Yarn等,都是相辅相成的关系。包括Spark本身也在不断地发展,现在看到很多做Spark的人,他们也在想怎么把Spark的速度提升得更高,性能提高得更好。并且Spark现在已经不再是以前的Spark Core这一个模块,它现在已经几乎变成一个大的生态系统,跟Hadoop紧密的结合,包括Spark Streaming, SQL Engine,尤其是Spark分析这一块,已经开始扩展到上层的这些模块。

规模化是英特尔解决数据分析的一个重要问题

数据分析在速度安全以及规模三个方面非常重要,尤其规模化,在分析领域是一个难题,也是一个课题。马子雅对此谈到,英特尔目前主要是围绕着Spark分析,希望能够让其实现规模化。一方面在Spark跟其他的同行一同协作,比如DataBricks、UC Berkeley AMPLab、Cloudera、微软、京东、华为。另外一方面,在Spark的社区里面,英特尔主要针对GraphX这几个模块让它们运行在分布式环境里面。其实就是让Graph计算,让它在分布式环境里面来做,让其规模化。

她还介绍,在这之上,还有一些其他相关内容的涉猎。比如说SparkR,目前很多写应用程序的人,都是用R来写,很多人对R这个语言很了解,但是对规模化,对分布式环境是没有概念的。英特尔通过做SparkR的一些模块,使用R写的这些应用程序,可以自动的跑在分布式的环境里面,来达到它对于规模化的要求。

英特尔与合作伙伴共建Spark集群

当数量越来越大的时候,通常都需要非常快速的、运行时间短的分析能力,这就对速度和性能有一定的要求。马子雅介绍了跟腾讯的合作来回应这点。腾讯有一个应用程序运算一次时间、速度非常长。腾讯想把Spark整个集群能够调得性能更好一点。英特尔提供了非常具体的建议,包括怎么设置Spark集群,对软件进行哪些调整等。最后,运行速度降低了一倍,就时间来说,原来是20分钟,现在可以降到10分钟。英特尔帮助腾讯把运算生命周期减了一倍的时间。此外,她还提到另外一个合作伙伴京东在硬件性能提升方面与英特尔之间的合作。“如果你要想特别大的运算量,提升硬件,可能硬件的性能提升了一倍,但是通过提升软件的一些设置,可以让它的运行速度提高4倍、5倍,甚至6倍到8倍之上。这样的话,软件加硬件一起的优化,会比你实际的Cost的增加,这个利处会更大。”马子雅这样说明英特尔的作为。

国内外做大数据有不同

结合当前的热点“互联网+”,马子雅表示,她看到国内与国外做大数据有一些不同。目前中国做大数据做得最热的是互联网的产业,因为它近水楼台,它已经在做互联网,本身就有大量的数据需要处理,所以这是非常典型的。而在国外更多的是传统产业跟大数据的结合。比如说医学方面、医疗方面和银行方面有大量的数据,需要大数据来帮助分析、运算。首先大数据本身是一个低成本,跟传统的Database这些产业相对来说成本是低的,在对于处理和存储同样大的数据流量,这是两边不同的一个地方。

而在中国,更多的互联网公司开始摸索出了大数据的一些经验之后,慢慢的会渗透到一些传统产业中去,因为它的一些经验会显现出来,会促进其他的传统产业更好的来利用。

应用软件一定程度上决定Spark未来走向

“想象一下大数据,为什么现在会这么热?”马子雅认为,是因为它能够真正的帮助我们解决一些实际的问题更,有效的处理一些现在的数据。因此,大数据的应用软件是非常非常重要的。

“从软件的角度,会把以人为本放在最前面,更好的解决人的问题,然后通过技术手段来解决这些问题,这就会变得特别重要。”她分析,以前是人跟着技术跑,往往新技术能带往何种道路有时还是未可知的,只是一些假设。目前一些大数据用户就明确,不在乎用什么样的硬件,甚至都不在乎用什么样的Hadoop或者是Spark的产品,只要给一个非常好的、有效的应用程序、应用软件就好了。
最后,马子雅总结,“应用软件在一定程度上决定了Spark,包括Hadoop的整个生态系统的未来走向。而这一层的数据平台的未来走向又决定了硬件应当怎么样更好的发展,来适应大数据的要求。”

英特尔公司的战略目标就是携手更多合作伙伴,提供更强大、可靠的大数据技术,对爆发性增长的数据进行全面地感知、收集、管理、分析乃至共享,将其高效解析成高精度、高价值、可流通的信息,推进“互联网+”进程——更好、更快地利用信息通信和互联网技术,帮助企业实现业务上的跨界变革和创新。

 

    • 评论
    • 分享微博
    • 分享邮件
    推荐专题

    详情
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章