至顶网软件与服务频道消息:如今几乎每家企业都或多或少拥有一些的数据,除了IT系统不断生成的各种业务数据,还有更多源源不断从传感器、移动设备以及各种IT设备传来的机器数据。来自市场研究机构的数据,每年新增数据量以40%的速度增长,其中90%是非结构化的。通过收集和分析这些数据可以帮助企业快速决策或者做出更正确的决策,提升企业效率、降低成本,给企业带来竞争优势。
对于数据分析,大家最为熟悉也是最传统的方法就是建数据仓库。然而,如今数据仓库几乎快要被汹涌而来的海量和多样化的数据所淹没,正面临着越来越大的挑战:如何以经济高效的方式存储数据,如何处理多样化的数据,如何及时的处理数据等,这些都是迫在眉睫必须考虑的问题。很显然,单靠数据仓库已经无法满足当下的数据分析需求,“数据湖”应运而生。
从数据仓库到数据湖
数据湖,顾名思义,就像湖能汇集各种水流一样,能汇集各种各样的数据。本质上,数据湖就是一个集中的数据存储容器,它统一对数据进行存储,按照需要进行分析和处理。
AWS首席云计算企业战略顾问张侠博士介绍,数据湖有几个特点:第一,存储的是原始的、自然的数据,可以是结构化的也可以是非结构化的。第二,可以快速地缩放,能保持海量的数据。
那么,数据湖与数据仓库的区别在哪里呢?张侠认为,数据仓库是在数据库的基础上,把数据经过一定的分类、提炼、清洗,整理好放在里面。它对数据有非常严格的要求,而数据湖没有这种限制,任何数据都可以保存在里面,一般也不会预先做数据清洗和提炼。
其次,也是最重要的一点,数据仓库是面向已经确定的需求,在建立的时候就知道要做些什么,在建立之初会对数据进行整理,这会花费不少的时间,而且数据仓库通常采用专用设备,成本也很高,一旦建好后要调整比较困难。不过,由于数据仓库是专门面向特定问题而建,因此建好后效率很高。而数据湖在建立的时候并不面向特定需求,它只是提供一个数据的集中保存,一般采用通用设备,提供的也是通用的数据查询和分析能力,数据可以随时进入数据湖。
随着非结构化数据越来越多,越来越多的场景对分析有时间要求,而传统的数据库方法不管是成本、实时性等方面都不能满足要求,这就是数据湖出现的根本原因。
张侠博士做了一个形象的比喻。他说,建数据仓库就像设计一个河道,我们知道这条河大概会来多少水,水来了以后我们有一些闸门可以处理。然而,到互联网时代,各种各样的数据汹涌而至,我们很难掌握数据到底是什么样的性质、会有多大量,也不可能花几个月、半年的时间把这些数据都整理清楚,规划好。在这种情况下,我们就找一大片湿地、洼地建起数据湖,没有河道,把所有数据就像湖水一样、洪水一样先蓄在这个湖里面,然后通过一些工具来查询它。
AWS的数据湖解决之道
对于已经相对成熟的数据仓库,对大多数人而言,数据湖还是一个比较新的概念。人们对数据湖的理解也不尽相同,对具体应该提供哪些功能和服务认识还不一致,市场上完整的数据湖解决方案并不多,现有的不少是基于开源的解决方案(如基于HDFS),比较零散,不太完整,AWS是为数不多能提供比较完整功能的数据湖解决方案的厂商。
据张侠介绍,AWS的数据湖解决方案有三大核心元素:Amazon S3/Glacier,AWS Glue和AWS Lake Formation。其中,Amazon S3/Glacier作为数据湖的核心存储,它结合各种RDS服务、Amazon Aurora、Amazon DynamoDB等数据库服务提供对各类型数据的存储能力,数据湖就建立这些基础的存储能力之上。
AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。使用AWS Glue,在几分钟之内便可以准备好数据用于分析。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。
Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3 中的数据。由于Athena是一种无服务器服务,因此客户不需要管理基础设施,而且只为他们运行的查询付费。Athena可以自动扩展,并行执行查询,所以即便是大型数据集和复杂的查询,也能很快获得查询结果。
此前,AWS Glue和Amazon Athena服务还没有开通。不过,不久前AWS宣布这两项服务都已经在由西云数据运营的AWS中国 (宁夏) 区域正式上线。
张侠介绍,数据湖的建设还是比较复杂的事情,涉及多个环节。比如,数据湖需要先把保存在各个数据源的数据抽取出来,集中存储。数据湖也不止是要保存数据,还会建立起立数据的目录,通过数据的转换、抽取等对数据归类,以快速进行各种各样的分析。另外,为了满足安全、合规审计的要求,数据湖还会提供数据治理方面的功能。
为了方便企业顺利建成数据湖,AWS把整个流程融入了一个叫做AWS Lake Formation的服务。它把建立数据湖的流程工作自动化,可以帮助企业在短短的几天时间里完成数据湖的建设。该服务目前还没有在中国正式推出。
除了底层的数据存储和数据湖的核心要素功能外,AWS还提供非常丰富的数据分析工具,包括Amazon Redshift(数据仓库)、Amazon EMR(大数据分析)、Amazon Elasticsearch(运维分析)、Amazon Kinesis(实时数据分析)等,以及丰富的展现工具,如图形可视化的Amazon QuickSight、语音和文字互转的Amazon Polly和Amazon Transcribe以及Amazon SageMaker(人工智能)等。
目前,AWS的数据湖相关服务已经得到广泛应用,包括亚马逊自己和AWS的众多客户。
亚马逊公司就基于自己的产品建立了一个名为Galaxy(银河)的数据湖,它把亚马逊的所有数据整合在一起,里面存了50PB-100PB的数据。通过它,亚马逊每天有多达60万个的分析任务,从用户推荐、各种运营分析、库存分析等,这也是亚马逊的一个核心竞争力。如今这些能力用户通过AWS的各种数据湖服务也能享受到。
除了亚马逊自己外,还有大量客户也在使用AWS提供的丰富的数据湖相关服务。以茄子快传为例,茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传的数据量大,分析维度多,业务也非常复杂,经常需要进行多维度多颗粒度的高并发分析。借助Amazon Athena,茄子快传轻松实现了交互式查询,分析数据,不必构建和部署额外的集群。同时将新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。
北京壳木软件有限责任公司(Camel Games)也是AWS数据湖服务的用户。壳木软件是神州泰岳旗下的手机网游公司,借助AWS Glue的帮助,壳木软件完成了复杂的ETL任务,从数百个Amazon RDS数据库中定时提取所需要的数据,供数据分析部门进行迅速而直观的全局统计,大大缩短了原本跨表查询的时间。
类似的案例还有不少,张侠说,“数据湖是当今数据分析的新趋势,AWS能提供全方位的数据湖、数据分析的服务,而且绝大多数服务产品都在中国落地,可以为中国客户所使用。和市场已有的解决方案相比,AWS的数据湖解决方案高效、全面、安全,能满足多种多样的需求,因为AWS的创新都是围绕客户需求来做的。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。