作者:Denodo 首席技术官 Alberto Pan
企业多年来的一贯做法是通过数据仓库或近年来兴起的数据湖,将所有数据持续整合到单一位置。数据仓库、数据集市和传统数据库需以特定方式对数据进行结构化和条理化,相比之下,数据湖具有多项关键优势。然而企业发现,他们在构建和管理自己的数据湖方面投入越多,从中获得的价值反而越少。企业也由此看到集中式数据基础架构和方法会带来不符合预期的后果,包括:
为了克服这些问题,企业开始密切关注一种名为“数据网格”的分散式数据基础架构新方法。德勤报告认为,“数据网格概念是一种管理数据的民主化方法,不同业务域在中央自助式数据基础架构的支持下使用自己的数据。该基础架构包括配套的数据管道引擎、存储和计算能力。数据网格并非将企业数据看作单一巨型数据存储库,而是将其视为一组数据产品存储库。因此,业务域(比如“金融”)会以产品形式提供数据,它们能够随时用于分析目的,具有可发现性与可靠性。就此而言,数据产品负责人本身便是拥有深厚域知识的业务域代表。”
在数据网格配置中,企业内的不同部门或群组将拥有单独的数据域,由中央自助式数据平台提供支持,并按照一套总体标准进行管理,以确保互操作性。每个数据域都将提供各自的数据产品,经过专门设计,方便目标受众使用,并且符合企业全局标准。尽管所有权分散,但预配和治理保持一定程度的集中。
数据网格架构有望克服完全集中式基础架构的局限性。但是,许多企业仍然质疑如何在获得中央数据平台支持与保持域的独立性之间实现这种微妙的平衡,并希望借助数据虚拟化 (DV) 等现有技术来解决这一问题。
支持无复制数据访问
能够有所帮助的解决方案形形色色,数据虚拟化作为一种数据集成技术,已成为实现数据网格的关键环节。与提取、转换和加载 (ETL) 流程以及其他面向批处理的数据集成方法不同,Denodo数据虚拟化让数据使用者无需先将数据复制到集中式存储库即可访问数据。从这一层面来看,可以认为数据虚拟化本质上是一种“分散式”数据集成策略,因为这种策略将在企业的不同数据源之上建立企业范围的数据层。要在不同数据源之间进行查询时,数据使用者只需查询数据虚拟化层,然后该层便会检索所需数据,让使用者不必受困于访问的复杂性。数据虚拟化层不含实际数据;但其存储了访问各种数据源所需的所有元数据。
Denodo数据虚拟化提供单一位置来存储元数据,支持企业从单一控制点,在整个企业范围内自动实现基于角色的安全性和执行数据治理协议。例如,企业可以自动脱敏处理薪资数据,用户必须拥有必要凭据才可查看此类信息。数据虚拟化层提供数据网格架构中所需的自助式数据平台的大部分必要功能。
企业可在数据虚拟化层之上实施多个语义层,由不同部门架构,并作为半自治数据域运行。每一个语义层都可以灵活地调整或移除,而不会改变或影响底层数据。因此,企业可以轻松地建立支持跨不同域重用的标准数据定义,并确保不同数据产品之间的语义互操作性,从而促进联合治理。
打造数据产品
当企业希望通过数据网格来开发数据产品时,他们会利用数据虚拟化层来创建虚拟模型,而利益相关者无需了解为之提供信息的数据源的复杂性。因此,企业可以利用一系列灵活的方法(例如 SQL、REST、OData、GraphQL 或 MDX),使这些虚拟模型作为数据产品被访问,此过程不需要编写代码。
此外,这些模型还具备用于支持数据产品的数据沿袭跟踪、自主记录、变更影响分析、身份管理和单点登录 (SS0) 等功能。通过集中存储元数据,数据虚拟化层可以提供全功能综合数据产品目录的所有必要成分,以供通过该目录清晰解读企业中按域有序排列的数据资产。
建立数据域自治
Denodo数据虚拟化使企业能够在不影响底层数据的情况下,在源数据之上构建视图和语义模型,因此也为数据域自治提供了现成的基础。该架构使数据域利益相关者能够选择为其产品提供数据的数据源,并根据需要更改组合以满足其需求。一些业务部门已在运营自己的数据集市和满足偏好的 SaaS 应用程序,由于数据域可以独立扩展,这些部门能够在数据网格配置中轻松地重用信息。
请务必注意,数据虚拟化不能取代数据仓库和数据湖等单体存储库;数据虚拟化处理此类存储库的方式与任何其他数据源相同,在数据网格配置中,它们将成为网格中的节点。这意味着与现有数据仓库或数据湖联系紧密的数据域可以继续通过这种方式为某些数据产品提供服务,例如需要机器学习的数据产品。在这种情况下,数据产品将继续通过虚拟层被访问,管理数据产品的协议也与负责数据网格其余部分的协议相同。
数据网格可以避开高度集中型数据基础架构的许多陷阱,是一种前景广阔的新架构。但是企业需要正确的技术支撑,才能通过简单明了的方式有效地利用数据网格,而无需更换旧硬件。
关于作者:Alberto Pan 在领先的数据虚拟化软件提供商 Denodo 担任首席技术官,同时还在拉科鲁尼亚大学任职副教授。他迄今已撰写科技论文逾 25 篇,涉及数据虚拟化、数据集成和 Web 自动化等领域。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。