“数据是企业的核心资产”这一观点如今已经被广泛认可。今天,在不少企业特别是大型企业中部署了数据仓库,而且常常有多个数据仓库在运行,正是为了挖掘数据的价值。而相对而言,在中小企业中部署数据仓库的比率明显低了很多。这背后的原因并不是中小企业不想要数据仓库,而是传统数据仓库太昂贵,需要专用的设备,其部署和运维很复杂,都需要专业人员,最终导致很多企业对传统数据仓库望而却步。
一边是企业对数据仓库的渴望,一边是数据仓库高昂的投入,这道题看似难解,而大数据平台的出现让我们看到了希望。随着以Hadoop为代表的大数据平台的兴起,一批此前对数据仓库感兴趣的企业借助大数据平台享受了数据带来的红利,一些部署了传统数据仓库的企业也开始将部分工作迁移到大数据平台,某些激进的企业甚至直接把传统数据仓库迁移到大数据平台上。上述种种预示着数据仓库市场正在发生技术变革。
大数据时代传统数据仓库面临挑战
数据仓库是企业迈向智能化的一座桥梁,借助数据仓库对数据进行深入挖掘,用以辅助决策、指导生产和经营,在企业智能化的过程中扮演重要角色,成为企业IT中非常重要的组成部分。
传统数据仓库典型的部署方式是采用MPP架构,用专用硬件和商用软件搭建,因而其前期投入大,后期使用上也要求很高,这也正是不少中小企业对数据仓库望而却步的主要原因之一。随着大数据时代的到来,对数据进行分析和处理的需求出现了一些新的变化,这些直接影响到数据仓库技术的演进方向。
其中最大的变化体现在数据量和数据类型上,随着移动化和物联网的普及,数据量出现了爆炸性的增长。根据Gartner的预测,到2020年全球联网设备数量将达260亿台,每台设备都是一个数据源,如此众多的设备带来的海量数据对传统数据仓库的存储和处理都带来非常大的挑战。除了数据量之外,今天数据类型也日趋复杂,在传统结构化数据之外出现了大量半结构化和非结构化数据,特别是大量非结构化数据的出现,让主要针对结构化数据设计和优化的传统数据仓库不堪重负。
其次,激烈的市场竞争迫切需要快速甚至要求实时做出决策,流式数据的处理成为数据仓库的重要需求。实时决策意味着实时计算,这需要新的技术架构,不仅要将数据流与现有数据体系进行对接,还要能够对其进行快速的分析。
另外,数据仓库的普及化和平民化也是一个广泛的需求,未来数据仓库的使用不应只限于IT 部门,所有部门的用户都要求能自助访问全真的数据,甚至希望无需IT 部门的协助便可以自行进行数据准备,而且,这个过程中的高访问延迟也是不被接受的。
在应对这些新的趋势时,传统数据仓库显得越来越力不从心。传统数据仓库主要存在以下局限:
? 传统数据仓库往往采用专用硬件和商用软件,采购成本较高,同时可扩展性也很差,在线保留全量、海量数据的目标难以实现;
? 元数据定义僵化,难以灵活集成多种数据源、支持业务部门即席查询的需求;
? 传统数据仓库的建设周期长,从需求分析到建模再到投入使用,长达数月甚至上年,难以适应市场的快速变化。第四,随着数据规模、用户规模的不断增加,数据分析挖掘工具处理数据时间过长,实时分析(例如,欺诈行为识别)SLA 无法满足。
在这样的背景之下,人们开始部署和建设新一代的企业级数据仓库,这就是基于Hadoop的大数据平台,而大数据技术的不断进入和成熟加速了新一代企业级数据仓库的渗透过程。
建立在大数据平台上的现代数据仓库
随着开源软件的普及,Hadoop在企业中得到越来越广泛的普及,越来越多的企业开始在Hadoop上建立各种商业应用,在这趋势之下,一些企业开始在基于Hadoop的大数据平台进行部分数据的分析工作。随之而来的问题就是,同样都是数据分析,是否一定要建立两个平台:一个是对应传统结构化数据,一个对应非结构化数据,能否统一到一个平台,比如大数据平台。
答案是肯定的,数据分析平台完全可以统一到大数据平台上。实际上,企业完全可以选择从一开始就将整个数据仓库规划在Hadoop 之上,传统数据仓库架构的主要创始人Ralph Kimball 博士在2015 年发表专题演讲时证实了Hadoop 是可以完全取代MPP 来建立数据仓库的。在全球范围内,已经有很多企业将他们的数据仓库完全建立在Hadoop 之上,从而能够实现更加优越的可扩展性、更高的性价比,以及更好的灵活性。比如,在实际应用中,即使是规模只有5 个节点的小集群,使用Hadoop 与其他技术选项相比,也能够取得更好的产出、带来更多的业务价值与竞争力。
而就技术本身而言,相对于已经具有数十年历史的传统数据仓库,虽然不能说作为后期之秀的Hadoop平台已经具有了匹敌传统数据仓库这么完整的生态,但在技术成熟度上,基于Hadoop的大数据平台已经具备了企业级数据仓库的基本特性。
以Cloudera 分析型数据库版本为例。Cloudera 分析型数据库已经在全球最大的900 多家组织机构里运行,2018 年8 月Cloudera正式推出了最新一代Cloudera 数据仓库版本。升级后的Cloudera 数据仓库版本提供了企业级混合云解决方案,包含了混合计算、混合存储、混合控制三大关键因素,专为实惠经济、强大可扩展的自助服务分析而构建。这款产品覆盖了数据仓库的整个生命周期,包括数据接入、存储、管理、查询、运行状况检查等等。
Cloudera 数据仓库版本适用于以下三场景:
? 将ETL 任务从(EDW)企业数据仓库迁移到Cloudera 大数据平台,极大地释放EDW 处理能力;
? 自助BI 和探索性分析;
? 对EDW 优化,通过 EDW 和Cloudera 大数据平台的混搭结构可以降低数据存储成本,提高数据处理和分析能力,充分发挥两套系统各自的技术优势。
采用Cloudera 数据仓库构建大数据平台可以带来前所未有的数据规模和灵活性。首先,Cloudera 提供统一、可扩展的平台,可以处理不同来源、不同类型的全量数据,以推动新的业务洞察。其次,Cloudera 的平台提供高性能的SQL 查询工具,支持大数据量高并发访问。第三,Cloudera 是唯一一个通过PCI 安全认证的Hadoop 平台,内置安全管控和数据治理模块,可以确保数据安全。第四,采用开源技术,可避免技术锁定的问题。
国内某城市商业银行就率先体验这一迁移的好处。该城商行于2013 年购买了某企业数据仓库平台(20TB),建立全行统一的单一业务视图。但是,随着业务量的不断增长,原有数据仓库方案架构封闭、性价比低、应用面窄、厂商依赖等诸多问题日益突出。为了避免每年花费大量经费来扩展该企业数仓平台基础设施,该城商行改用运行在X86 标准硬件上的Cloudera 大数据平台逐步替代。目前,该城商行已经将大部分的传统企业数据仓库应用迁移到Cloudera 大数据平台,包括CRM、监管报送、自助化分析、取数以及风险合规相关应用。同时,也基于大数据平台新建了一些应用,例如:实时营销和欺诈监控、在线明细查询等等。
现代数据仓库的升级路径
尽管将数据仓库建立在大数据平台上具有很多优势,比如成本节约、扩展更灵活,但不意味着企业就一定要将数据仓库一步到位迁移到大数据平台上,而是应该根据企业自己的实际应用情况决定是否要进行迁移,如果要进行这种迁移也应该渐进的,迁移路径应根据企业所处的不同阶段进行技术选择。
一般而言,企业数据仓库的建设分别处于如下三个阶段:
起始阶段:处于这一阶段的大多数企业已采购MPP 硬件搭建数据仓库。为了保证业务延续性,对于起始阶段的企业建议以传统技术为主,以大数据技术为辅。例如,ETL 处理主要部分仍然放在MPP 平台,只是利用HDFS 做历史数据归档并进行部分ETL流程改造,利用Spark Streaming 做小批量数据的实时处理。
发展阶段:这一阶段的企业用户已经掌握了大数据的核心技能,发展阶段建议以大数据技术为主,以传统技术为辅。例如:将ETL 处理全部转移到Hadoop 平台,而只将处理逻辑简单的固定报表部分放在MPP 上。
成熟阶段:建议使用Hadoop 平台作为整体架构,将大数据技术应用到极致。
如果经过认真评估,适合向新一代数据仓库迁移,专家建议按照如下步骤来进行:建议先从历史数据和日志数据的处理开始做技术验证,利用大数据技术处理“海量”的混合结构数据,同时支持实时、在线和离线处理。然后逐步从客户体验、营销为切入点,突出业务价值。利用大数据技术提供实时分析能力。第三,逐步把传统数仓和大数据架构进行完全融合,让全量数据“可用+ 可视”, 为业务人员提供自助式数据服务,培养数据思维。最后,从数据角度重构现有价值链,从“用数据”到“养数据”,再到“数据经济”,利用大数据技术建立企业数据资产。
值得一提的是,为了帮助用户顺利从传统数据仓库向新一代数据仓库迁移,Cloudera提供了丰富的工具和服务。比如,Cloudera 推出了针对企业应用进行优化并包含相应工具和售后服务的数据仓库软件版本。相较于免费版本,企业用户可以获得源码级的技术支持服务。其次,Cloudera提供大数据咨询和专业服务。Cloudera 拥有一支极富Hadoop 实践经验的资深专家团队,该团队专门为数据仓库项目提供最佳的现场服务。第三,Cloudera还提供人才培训。Cloudera 大学是世界领先的培训和认证的机构,提供业界最广泛的Apache Hadoop 培训和认证。
综上所述,数据仓库是企业迈向智能化的重要手段,基于Hadoop的大数据平台代表了数据仓库的未来发展趋势。为了尽快加速智能企业的进程,助力企业的数字化转型,企业有必要认真评估自己的数据仓库战略,并基于企业实际应用选择最佳部署路径,不失时机地完成数据仓库的转型。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。