“NoETL” 工程新范式 Aloudata重构数据生产力 原创

Aloudata用智能化的解决方案取代传统的ETL工程师驱动的方法,也就是“NoETL”,即通过ETL智能体(ETL Agent)驱动数据处理和管理。

当下,数据在企业中的价值日益凸显,“用数能力”已经成为企业核心竞争力之一。

在实际业务场景中,所有企业的管理层都会设定营收指标来评估业绩,分析完成比例、同比、环比等数据,这是一种典型的“数字化管理”场景。

管理层指标要拆解成可执行的部门指标和个人指标,根据这些细分指标,企业可以采取多种运营行动,比如营销、广告投放、优惠券发放、库存优化等,这些都是为了达成更好的运营结果。

除了营收指标外,公司管理层还会关注许多指标,如年度活跃用户数、支付笔数、新增有效商品数等。每个管理指标背后都有类似的分解过程,涵盖大量的部门指标、团队指标和个人指标,以及相应的运营行动。这些团队和个人指标及其对应的运营决策,构成了所谓的“数智化运营”。

“NoETL” 工程新范式  Aloudata重构数据生产力

 

总的来说,企业内部的数据需求可以分为数字化管理和数智化运营两个方面。

数字化管理属于看数需求,而数智化运营属于用数需求。看数需求通常比较固定和清晰,容易固化;而用数需求则充满不确定性,往往在使用的过程中才能明确需求。其次是需求的周期:管理层的需求可能按月交付,因为它们通常在一整年中使用。但是,运营需求就不同了,如果按月交付,它们可能就无法满足实时性的需求,因为运营活动通常是基于当天或当周的情况来进行。最后,需求数量的增长率也不同。管理层的需求数量相对有限,而运营需求数量却几乎是无限的,随着业务的不断发展和多样化,这些需求也在持续增长。

Aloudata CEO周卫林告诉记者,当业务从数字化管理转向数智化运营的过程中,我们通常会面临数据源、数据需求和用数人群的快速增长。这不可避免地意味着ETL(抽取、转换、加载这三个英文单词的缩写)作业数量将会呈指数级增长,并带来技术和成本层面的挑战。

比如当需求变得越来越动态时,这就导致了迫切的性能优化问题,从而影响整个ETL链路的开发和优化。此外,需求的灵活性导致我们在需求提出时往往无法立即满足,这种技术成本的失控导致许多用数需求的满足度下降,IT部门不断追问业务方需求的目标和ROI。

由于高频变化和人工研发过程,数据目录的人工维护变得极为困难。这导致数据管理的失效和失败。在当前的形势下,要实现良好的数据治理和管理,在现有的依赖人工的工程模式下几乎是不可能的任务。

因为尽管需求在快速增加,而现实情况是ETL工程师数量却有其限制,其能力也有其上限,现有的ETL工程体系是不可持续的。Aloudata的思路是必须采用全新的思维方式、新的架构和新的技术来应对这一挑战。

“NoETL” 工程新范式  Aloudata重构数据生产力

 

为此,Aloudata提出一个“NoETL”(无ETL)的模式。这种模式旨在寻找一种不再依赖于传统ETL工程师驱动的方法,从而实现数据生产力的可持续和大规模增长。

NoETL跨越ETL鸿沟

从需求端来看,传统的数据工程体系在满足管理层需求时可能表现良好,但对于底层业务人员而言,他们需要的不仅仅是报表,而是更细粒度的数据集和口径明确的指标。

业务人员需要的是两件事:明确指标的定义,以及确保这些指标是他们所需要的。我们需要一种新的交互界面,这个界面不仅仅是表格。用户不需要知道表格存放的具体位置,而是需要清楚地理解指标的口径,以及这些口径背后的值。

“NoETL” 工程新范式  Aloudata重构数据生产力

传统的数据集成方式涉及到物理同步数据和人工的ETL开发,而Aloudata提供了一种全新的数据集成方式,使用逻辑方式进行数据集成和自动化重构ETL链路。逻辑集成最重要的作用是避免数据搬运,自动构建全局数据的逻辑视图,并通过AI增强的自适应加速技术,替代传统的人工ETL链路加工。

业务人员关注的是指标而不是表格。因此,需要一个语义建模流程来完成这一任务。IT部门定义原子指标后,业务人员可以通过语义来定义所需的各种派生指标和衍生指标,而这一定义过程本身就是开发过程,无需再向IT提交需求。

为了实现管理自动化,企业需要一套能够感知当前系统状态的元数据系统。主动元数据不同于被动元数据,它类似于实时导航系统,不仅提供精确定位,还能辅助驾驶。

“我们通过数据语义引擎提供全新的交互界面,通过数据虚拟化引擎实现逻辑数据集成与自动化构建ETL链路,通过主动元数据引擎实现数据治理的辅助驾驶(Copilot)。这三个核心技术引擎是我们最核心的技术创新与突破。”周卫林说。

“NoETL” 工程新范式  Aloudata重构数据生产力

NoETL模式可以充分利用企业现有的数据湖、数据仓库和其他数据源,盘活全部数据资产,实现平滑升级,而不是完全重构。

通过这一全新的架构,企业能够消除传统数据工程的障碍,例如繁重的管道、运维任务和预计算成本,同时提高效率和生产力。实际的业务效果体现在需求交付周期的缩短,从按周或按月交付变为按天或按小时交付,以及将存储和计算成本降低50%以上。

“NoETL” 工程新范式  Aloudata重构数据生产力

在这个架构下,Aloudata推出了三个主要的产品:Aloudata AIR、Aloudata CAN和Aloudata BIG。

Aloudata AIR是一个逻辑数据平台,实现了多源异构数据的虚拟化集成,无需物理搬运数据。Aloudata AIR还通过自动化物化链路编排和智能查询下推技术,实现了自适应的查询加速,从而提高了处理效率。

此外,Aloudata AIR具有多项企业级特性,例如强化安全性。因为它能够连接所有数据源,并提供统一的安全管理界面,所以安全管控的程度更高。实际效果表明,这个平台能显著提高效率,节约成本,同时减少ETL工程师的参与和开发成本。

在传统的指标平台中,指标管理面临着诸多挑战。例如,ETL开发工程师开发数据表,然后BI工具为业务指标配备度量和维度。但这种物理指标的生产依赖于数据工程,而指标的定义则又在BI工具内,这两者之间往往难以统一和复用。Aloudata CAN是一个自动化指标平台,用户在这里定义指标,定义完成后,系统自动进行指标开发。这意味着,定义即生产,定义即服务,无需额外的开发和发布工作。这样,就实现了指标的一致性,并解决了口径不一致和重复的问题。

Aloudata CAN的实现改变了传统的生产模式,不再需要繁复的开发过程,同时也改变了服务模式,降低了IT的参与度。这不仅提升了价值,还让IT团队可以专注于更有价值的任务。

在企业中,存在着巨量数据,同时伴随着一系列问题,如数据交付缓慢、难以管理、难以理解、难以治理等。要解决这些问题,就需要更精细的管理能力。Aloudata BIG则是一个能解析最精细数据血缘的主动元数据平台,可以主动采集和分析数据,然后基于这些变化提出建议,帮助公司的各个流程更加高效,在模型治理、链路保障、综合安全合规检查等方面发挥巨大价值。

三个产品已经在企业中进行落地,得到了许多大型头部企业的强烈响应,特别是在股份制银行、头部城商行和大型国央企中。比如首创证券采用Aloudata AIR后,实现了数据的逻辑集成和自动化ETL流程,大大降低了数据工程的人力和成本投入。

殊途同归话Data Fabric

近几年,无论是Gartner还是Forrester,他们都在持续讨论Data Fabric,并将其定义为未来数据管理的新一代架构和理念。

这一概念的提出背景是数据爆炸式增长和如何管理海量数据。Data Fabric的概念是,首先将数据编织在一起,然后当人们需要数据时,他们只需从这个编织好的网络中提取所需数据。数据的具体位置和获取方式由系统自动处理。

Aloudata CPO肖裕洪表示,Data Fabric的本质是如何解决跨系统、跨平台的大量分散数据,以什么样的交互方式交付给数据消费者。

无论数据存放在哪里,无论其格式如何,当你需要时,系统都能够在正确的时间向正确的人提供正确的(即质量有保障的)数据。正确的时间意味着数据能够及时交付,不是过了很久才到达;正确的人意味着数据的使用应该安全合规,不应该滥用。简而言之,Data Fabric的全部内涵就是将有质量保障的数据及时交付给合适的人,让数据安全、规范地流通。

支撑起Data Fabric,我们需要三个核心要素。首先是一个增强的数据目录,类似于一个管理良好的数据市场。这个市场能够动态搜罗企业中的所有数据,不仅是搜罗,还要将这些数据的技术术语转换为业务上的术语,使得人们使用自己的业务语言就能找到所需数据。进一步说,我们应该从“人找数据”转变为“数据找人”,主动将数据推荐给适合使用它的人。这就是Data Fabric需要的第一个能力。

其次是一个能高效访问和使用数据的虚拟数据访问网关。这意味着数据不仅要被找到、理解,还要能够被访问和使用。虚拟访问的概念在于,虽然数据源可能分散在不同的位置,但当你表明了使用需求后,系统应能动态地协调这些分散的数据源,然后生成并提供你所需的结果。

最后,我们需要具备主动的数据治理能力,确保数据的安全合规流转,避免失控。我们需要有机制来下发相关的约束和政策,以保证在使用数据时的安全性和合规性。如果没有这样的措施,就可能会面临极大的问题。我们还需要能够标记数据,识别出那些可能涉及隐私和安全的数据,确定它们的安全等级和隐私等级,并能自动分类管理。在这些固定政策的指导下,我们能够有效地保护这些数据。

“NoETL” 工程新范式  Aloudata重构数据生产力

Data Fabric提供了一种新的数据管理模式,它通过逻辑化集中、动态集成、智能治理和增强型数据目录,实现了对数据的更高效、更智能的管理。

Data Fabric背后的核心思想:自动化。不论是动态、自动、主动还是增强,这些概念的核心都在于将原本需要大量人工操作的工作自动化。在过去,数据管理更多依赖于人工驱动模式,而Data Fabric则是向AI增强的自动化模式转变。这种转变正是它未来性的关键所在,它重新定义了人与数据的交互模式,使得在数据源和使用场景不断增多的情况下,原本依靠人工无法持续的状态得以通过自动化替代。

“NoETL” 工程新范式  Aloudata重构数据生产力

“在实践NoETL过程中,我们发现我们所做的事情与Data Fabric的目标和路径实际上是一致的。本质上,我们都在追求通过AI增强的自动化来实现更加自助化的业务数据使用和主动的数据治理。我们的实践和Data Fabric的理念虽然出发点不同,但殊途同归,都是为了更高效、更智能地处理和利用数据。”肖裕洪说。

正是这样的思路,Aloudata构建一个有效的数据系统,实现ETL的自动化。这个系统包含三个核心组件:一个主动的数据图谱作为感知系统;一个AI增强的数据策略引擎作为决策系统;以及一个数据虚拟化引擎作为执行系统。

最终的目标是,你只需告诉系统企业拥有哪些数据,注册元数据,剩下的工作系统会自动完成。系统能够连接所有数据,无论数据存放在何处,其格式如何。你只需要设置好数据访问的约束和规则,也就是主动元数据。

对于数据消费者来说,Aloudata提供一个增强的数据目录,即数据市场,他们可以在这里找到数据,甚至系统会主动推送相关数据。最后,Aloudata提供一个开放式的数据服务,让数据消费者使用自己喜爱和熟悉的工具,在舒适的环境中自助使用数据。

写在最后

数据成为新的生产资料,如何借助这一生产资料赋能企业的生产力成为时代主题,而ETL工程师在其中扮演了重要角色。但是现状是在整个中国,这样的高级工程师数量非常有限,随着业务的增长,企业对这类高级工程师的需求也会相应增加,这在很大程度上限制了数据工程领域的发展和扩展。

Aloudata用智能化的解决方案取代传统的ETL工程师驱动的方法,也就是“NoETL”,即通过ETL智能体(ETL Agent)驱动数据处理和管理。

“NoETL” 工程新范式  Aloudata重构数据生产力

“我们的使命不仅仅是为了解决人才短缺的问题,而是更彻底地改变数据的生产方式。我们的目标是实现数据的随时就绪性——无论何时,只要业务需要,相关的数据就能立即被调取和使用。通过这种方式,我们希望为整个行业带来一场深刻的变革,使数据处理更加高效、灵活,并为各行各业提供前所未有的数据管理能力。”周卫林最后说。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2023

12/15

10:16

分享

点赞

邮件订阅