作者:彭锋,智领云联合创始人&CEO,拥有20余年软件开发、大数据及云计算经验,曾担任Twitter大数据架构师及技术带头人,ask.com工程总监,硅谷天使投资人,毕业于美国马里兰大学计算机博士,武汉大学计算机系本科及硕士。
2008年我在我的第一份工作(Ask.com)中开始使用Hadoop。当时是因为昂贵的Oracle集群无法处理不断增加的分析工作量,公司不得不切换到Hadoop。随后在Twitter担任数据工程师的第二份工作中,我在第一线参与并推动了如何使用数据给几乎所有Twitter的产品赋能(与其称之为“大数据”,我更愿意简单称之为“数据”)。自2008年以来,我亲眼目睹了数据的力量,以及见证了它如何改变世界。如果你阅读过有关剑桥分析公司如何影响2016年美国大选的文章,那么你会感受到这种改变所带来的非凡意义。
然而,自流行词“大数据”出现10多年后,大数据似乎只对少数公司有用。在硅谷,几乎所有的独角兽企业都广泛使用大数据来推动他们的成功。在中国,像BAT这样的公司已经掌握了大数据的艺术,同时我们也有像字节跳动这样主要以大数据技术为基础的超级独角兽公司,但是仍然有很多关于大数据是如何难以使用的笑话。并且令人遗憾的事实是,对于大多数公司来说,大数据要么仍然是流行词,要么的确是难以实现。幸运的是,一门新学科正在崛起,是解开普通公司数据能力的关键。它就是DataOps,与DevOps明显相似的名称,以及与DevOps类似的软件开发角色,是数据工程师希望简化数据的使用并真正实现以数据来驱动企业成功的方法。今天,我们将简要介绍DataOps以及为什么它对每个想要从数据中获取真正价值的公司都很重要。
维基百科上DataOps的定义是:
DataOps是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高质量并缩短数据分析的周期时间。
维基百科上的DataOps页面在2017年2月创建,其中详细介绍了这一新学科。DataOps的定义肯定会随着时间的推移而发展,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。
DataOps可以降低数据分析的门槛,但是它并不会使数据分析变成一项简单的工作。实施成功的数据项目仍然需要大量工作,例如深入了解数据和业务的关系,良好的数据使用规范以及一个公司的数据驱动的文化培养。不过,DataOps将极大地提高人们使用数据的效率并降低使用数据的门槛,公司可以更快,更早,更好地开始使用数据,并且成本和风险更低。
大数据的大多数应用可以分类为AI(人工智能)或BI(商业智能)。此处的AI是指广义的人工智能功能,包括机器学习,数据挖掘以及其他从数据中获取以前未知知识的技术。BI则是更多地使用统计方法将大量数据汇总到更简单的报告,供人们理解。简而言之,AI使用各种数据算法来计算新的东西,BI则是统计人们可以理解的数字。
编写AI / BI程序并不难。你可以在几个小时内设置一个TensorFlow的人脸识别程序。或者使用Matlab绘制一些数据,甚至使用Excel也并不难实现这个目的。问题在于,要实际使用生产结果来支持面向用户的产品或根据这些神奇的数字来决定公司的命运,你需要的不仅仅是手动工作。
Dimensional Research的一项调查(如上图所示)发现,对于想要实施大数据应用的公司来说,以下问题最为困难:
谷歌数据分析师的另一项研究发现,对于大多数机器学习项目,只有5%的时间花在编写ML代码上。另外95%的时间用于设置运行ML代码所需的基础设施。
在这两项研究中,我们可以很容易地看到许多艰苦的工作实际上并不是在编写代码。整个基础设施的准备工作以及高效运行生产级别的代码是非常费时费力的,而且经常伴随着各种风险。
在谷歌的研究中,他们引用了我的前同事Jimmy Lin和Dmitry Ryaboy(来自Twitter Analytics团队)的话:我们的大部分工作可以被描述为“数据管道工”。实际上,DataOps使管道工的工作更简单和高效。
DataOps旨在减少整个分析周期时间。因此,从搭建基础架构到使用数据应用的结果,通常需要实现以下功能:
简而言之,它类似于DevOps方法:从编写代码到生产部署的路径,包括调度和监视,应由同一个人完成,并遵循系统管理的标准。与提供许多标准CI,部署,监控工具以实现快速交付的DevOps类似,通过标准化大量大数据组件,新手可以快速建立生产级的大数据平台并充分利用数据的价值。
DataOps的主要方法论仍处于快速发展阶段。像Facebook和Twitter这样的公司通常会有一个专门的数据平台团队(Data Platform Team)处理数据运营并实现数据项目。但是,他们的实现方式大多与公司现有的Ops基础设施集成,因此通常不适用于其他人。我们可以从他们的成功中学习经验,并建立一个可以由每家公司轻松实施的通用大数据平台。
要构建DataOps所需的通用平台,我们认为需要以下技术:
目前的大数据技术是强大的,但它们对于普通人来说仍然太难使用。部署一个适合生产环境的数据平台仍然是一项艰巨的任务。对于已经开始这一过程的公司来说,他们的数据平台团队大部分时间仍在做相似的事情,就像重新造轮子。
有些公司已经意识到这些问题(Qubole,DataMeer,Bluedata等),并开始采用不同的方法来解决这个问题。其中一些使用基于容器的解决方案,另外一些以Hadoop为中心构建其平台。
践行云原生DataOps,需要正确的方式和工具。当下我们正需要用一款工具及平台解决目前繁杂的数据开发问题,在实践中降低迈入数据大门的门槛。目前由智领云自主研发的一款即开即用,快速搭建数据工程的新一代在线DataOps大数据平台--BDOS Online已上线,欢迎大家免费试用。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面