扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZD至顶网软件频道消息: 目前,业界已知的最大Hadoop单集群是1.3万台,它的创造者就是全球最大的中文搜索引擎公司——百度。在近日召开的可信云服务大会上,百度开放云大数据负责人朱冠胤解密了这个最大Hadoop/Spark平台的演进史。而百度推出的开放云服务,正是基于这样强大的分布式技术。
百度开放云大数据负责人朱冠胤在可信云大会上演讲
早在2007年,百度就引入了Hadoop。随着百度搜索对数据处理需求的不断提升,分布式技术在百度内部得到快速发展。到2011年Hadoop单集群已经达到了5000台,2013年更是激增到了1.3万台,成为全球最大的Hadoop集群。据朱冠胤介绍,2013年,该集群日均处理百万量级作业,MapReduce性能超越开源社区30%。
更大的突破发生在2014年。这一年,百度上线Native C++支持的DAG引擎。“应用DAG引擎后,我们可以看到,在不同的情况下,我们的性能最低可提升10%,最高可以达到数倍。”朱冠胤举了一个例子,“一个线上例行作业,用户SQL语句基于MapReduce引擎需要翻译成25个作业,而基于新的DAG引擎,只需要翻译成1个作业,运行速度从5个小时缩减到1个小时。”
创新无止境。今年,百度进一步对系统进行优化,对Hadoop/Spark的核心模块Shuffle完成重大重构,可支持超大数据规模情况下内存流式Shuffle,性能相比2014年进一步提升30%。
在这次会上,百度首次对外解密了大数据“掘金”平台,通过Normandy统一服务调度系统,能支持多种计算系统例如Hadoop/Spark/MPI等混布,充分提高资源利用率,快速满足百度大量新增Spark数据分析和挖掘的需求。
基于强大的云计算技术积累,2015年,百度开放云正式开放注册。不同于其他企业的云计算服务,朱冠胤表示,百度开放云是“云计算+大数据+智能”的开放,包括国内首个云端全托管的Hadoop/Spark服务BMR、报表和多维分析服务PALO,以及机器学习服务BML等涵盖从云到大数据再到人工智能的多种服务,助力企业业务更加智能化。
百度开放云产品
百度开放云产品各有优势。以BMR为例,朱冠胤表示:“我们提供的Hadoop/Spark服务不同于业界其的厂商,是一个独享的集群,而非共享集群。每个客户使用我们的BMR服务都享有专有集群,这个集群可以快速扩张。”
百度的人工智能技术在世界处于领先水平,正因为如此,机器学习服务BML成为百度开放云服务的另一大亮点。“百度机器学习服务是由业界顶尖专家提供的。它支持超过20种最流行机器学习算法,有着非常完备的特征库,可以实现预处理、特征分析、模型训练、模型评估、模型预测等全流程支持。”朱冠胤介绍称。
实际上,在此次可信云服务大会上,百度又有多款产品宣布通过了可信云认证;其块存储技术获得可信云2014-2015年度技术创新大奖。可以看出,百度还在不断进行技术创新与优化,百度开放云打造“云计算+大数据+智能”的组合拳,将在这个“互联网+”与人工智能快速发展的时代中,占据更大的优势。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者