作者:Denodo 亚太地区数据架构总监Shanmuga Sunthar Muniandy
在关于企业数据和分析的讨论中,数据编织和数据网格是两个经常被提及的概念。它们虽然表面上看起来非常相似,但实际上在信息流的用途上却大不相同。这种不同也对当今和未来的业务产生越来越大的影响,因为越来越多的业务要素涉及数据集成和管理,如产品交付、客户参与、业务发展,甚至财务会计。
Denodo 亚太地区数据架构总监Shanmuga Sunthar Muniandy
在过去二十年中,企业管理数据的方式在中心化、去中心化、数据库化、数据仓库、云数据存储和数据湖的循环之间来回摇摆。这个列表还在不断增加。目前,我们有多种基于云的超大规模扩展平台 (hyper scaler),如 Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud Platform (GCP),它们都是知名度很高的平台。
尽管存在很多选择,但难题仍然存在:企业希望数据集中在一个位置,并且易于查找。如何将所有数据收集到一个位置仍是一个难题。数据编织和数据网格设计可以帮助企业以不同的方式解决这些难题。
对于当今的企业,找到一个面向未来的数据框架来满足不断变化的商业需求至关重要。今天,让我们抛开对数据管理的抽象理解,看看如何将数据作为创造收入和价值的新来源。
去中心化 — 出路
在当今环境中,各个业务部门如孤岛般分散运营,物理方式将数据集中到一个存储库中十分困难。这意味着需要连接到必要数据源,其中存储的数据在格式、大小、隐私限制或其他元数据特征方面可能大不相同。
通过逻辑数据集成,业务用户可以利用虚拟化来连接和统一数据,并避免出现以物理方式复制数据并进行摄取所导致的问题。在逻辑数据集成架构中,用户并非直接访问数据,而是通过共享语义模型来访问数据。这些解决方案提供数据的虚拟化表示形式,并使源数据保持不变。这很重要,因为越来越多的利益相关者(高管和关键决策者)开始使用源数据,以从宏观上更准确地了解业务。
必须注意,逻辑数据编织与数据网格是两种截然不同的架构方法。数据编织是一种数据基础架构堆栈,而数据网格则重点面向流程,旨在解决分布式环境中的数据集成、管理和交付问题。
用于商业智能分析的数据编织
我们使用一个日常生活中的类比:就像我们服装面料中不同的线一样,数据编织包含来自不同位置且具有不同格式和类型的数据,这些数据编织在一起。在这种配置中,数据仍被理解为需要通过传统复制进行物理集成。逻辑数据编织将物理数据集成替换为逻辑数据集成组件。数据虚拟化使这一过程成为可能。这将创建一个逻辑数据编织。
此逻辑数据编织使业务用户可以选择将业务语义放在顶层,而不影响底层数据源。业务决策者和数据分析师可以构建定制虚拟数据存储,而无需移动底层数据源,也不必担心无意中修改或损坏底层数据源。
对于企业领导者而言,他们的数据科学家团队可以使用其首选商业智能工具,并以迭代方式构建其数据模型。这意味着在收集、复制和清理数据以进行分析时,项目管理复杂性更低。逻辑数据编织可使数据就绪并可供使用。
Toyota-Astra Motor (TAM) 印度尼西亚分公司目前是印度尼西亚汽车行业的市场领导者,该企业将Denodo数据虚拟化技术作为其企业级逻辑数据编织的核心组件。现在,高管、数据科学家和业务用户可以轻松使用他们选择的商业智能工具。更重要的是,引入逻辑数据平台不仅确保了能够集中管理安全策略,还恢复了对数据的整体信任和信心。
逻辑数据编织可以消除数据访问和集成的复杂性,使业务用户能够做出更及时的决策,并缩短产品或服务开发周期。
可提供宏观可见性的数据网格
数据编织是一种集成解决方案,而数据网格则是一种组织解决方案,用于在单个企业中组织数据、个人访问权限、流程和工作流。
在数据网格中,数据所有权和管理属于已分配的“数据域”,这些数据域与企业部门或职能相对应。每个数据域中的利益相关者将他们的数据打包在一起,作为产品在整个企业中交付。企业的各个部门都会创建和维护自己的数据产品 - 包括消费者数据产品、资产数据产品和财务数据产品等。
当企业的关键领导部门和数据域的所有者需要创建自己的“视图”或数据产品时,授予访问权限的权变措施可能复杂且成本高昂。在这种情况下,逻辑数据网格可将业务相关者对顶视可见性的需求与企业现有 IT 架构设计联系起来。
通过逻辑数据网格,企业可使有数据使用需求的用户、分析师、开发人员和应用程序访问由相关可用数据以有序且安全的方式结成的网络。数据虚拟化使企业能够继续使用现有数据资产、服务和项目管理工作流,而无需进行破坏性权衡。
逻辑数据网格可在互斥层中分别提供商业智能团队访问权限和业务元数据,可为数据域创建新语义层,而不必担心修改或损坏数据源。数据虚拟化还是创建新数据域的构建模块,这些数据域可以打包以供内部企业使用,或者作为面向外部客户的产品进行销售。
逻辑数据编织、数据网格,还是两者兼而有之?
哪种方法更好?这取决于企业的运营工作流和规模。逻辑数据编织是一种智能、强大的数据集成、管理和交付方法,适用于各种形式和规模的企业。数据网格架构是一种同样智能的方法,用于组织整个企业内的数据,通常对于拥有很多业务部门和复杂组织结构的大型企业更有效。因此,问题不在于选择数据编织还是数据网格,而在于企业(根据其需求)是否需要同时实施数据编织和数据网格。
Denodo数据虚拟化技术使企业通过逻辑的方式进行数据集成和管理,并保障数据编织和数据网格两种方法的优势。同时,该技术还能为企业提供面向未来的数据框架,满足并适应当前和未来不断变化的业务需求和环境。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。