科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道产业观察全球最大Hadoop平台演进史:DAG引擎上线性能增数倍

全球最大Hadoop平台演进史:DAG引擎上线性能增数倍

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

在近日召开的可信云服务大会上,百度开放云大数据负责人朱冠胤解密了这个最大Hadoop/Spark平台的演进史。而百度推出的开放云服务,正是基于这样强大的分布式技术。

来源:业界供稿  2015-08-10 16:34:44

关键字: Hadoop 百度开放云 百度

  • 评论
  • 分享微博
  • 分享邮件

ZD至顶网软件频道消息: 目前,业界已知的最大Hadoop单集群是1.3万台,它的创造者就是全球最大的中文搜索引擎公司——百度。在近日召开的可信云服务大会上,百度开放云大数据负责人朱冠胤解密了这个最大Hadoop/Spark平台的演进史。而百度推出的开放云服务,正是基于这样强大的分布式技术。

全球最大Hadoop平台演进史:DAG引擎上线性能增数倍 

百度开放云大数据负责人朱冠胤在可信云大会上演讲

早在2007年,百度就引入了Hadoop。随着百度搜索对数据处理需求的不断提升,分布式技术在百度内部得到快速发展。到2011年Hadoop单集群已经达到了5000台,2013年更是激增到了1.3万台,成为全球最大的Hadoop集群。据朱冠胤介绍,2013年,该集群日均处理百万量级作业,MapReduce性能超越开源社区30%。

更大的突破发生在2014年。这一年,百度上线Native C++支持的DAG引擎。“应用DAG引擎后,我们可以看到,在不同的情况下,我们的性能最低可提升10%,最高可以达到数倍。”朱冠胤举了一个例子,“一个线上例行作业,用户SQL语句基于MapReduce引擎需要翻译成25个作业,而基于新的DAG引擎,只需要翻译成1个作业,运行速度从5个小时缩减到1个小时。”

创新无止境。今年,百度进一步对系统进行优化,对Hadoop/Spark的核心模块Shuffle完成重大重构,可支持超大数据规模情况下内存流式Shuffle,性能相比2014年进一步提升30%。

在这次会上,百度首次对外解密了大数据“掘金”平台,通过Normandy统一服务调度系统,能支持多种计算系统例如Hadoop/Spark/MPI等混布,充分提高资源利用率,快速满足百度大量新增Spark数据分析和挖掘的需求。

基于强大的云计算技术积累,2015年,百度开放云正式开放注册。不同于其他企业的云计算服务,朱冠胤表示,百度开放云是“云计算+大数据+智能”的开放,包括国内首个云端全托管的Hadoop/Spark服务BMR、报表和多维分析服务PALO,以及机器学习服务BML等涵盖从云到大数据再到人工智能的多种服务,助力企业业务更加智能化。

全球最大Hadoop平台演进史:DAG引擎上线性能增数倍

百度开放云产品

百度开放云产品各有优势。以BMR为例,朱冠胤表示:“我们提供的Hadoop/Spark服务不同于业界其的厂商,是一个独享的集群,而非共享集群。每个客户使用我们的BMR服务都享有专有集群,这个集群可以快速扩张。”

百度的人工智能技术在世界处于领先水平,正因为如此,机器学习服务BML成为百度开放云服务的另一大亮点。“百度机器学习服务是由业界顶尖专家提供的。它支持超过20种最流行机器学习算法,有着非常完备的特征库,可以实现预处理、特征分析、模型训练、模型评估、模型预测等全流程支持。”朱冠胤介绍称。

实际上,在此次可信云服务大会上,百度又有多款产品宣布通过了可信云认证;其块存储技术获得可信云2014-2015年度技术创新大奖。可以看出,百度还在不断进行技术创新与优化,百度开放云打造“云计算+大数据+智能”的组合拳,将在这个“互联网+”与人工智能快速发展的时代中,占据更大的优势。


 

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    相关文章
    最新文章