未来数据生态系统架构是什么模样?
Gartner认为,未来的数据生态系统应该利用分布式数据管理组件,可以在多个云和/或本地运行,但应被视为具有高度自动化的紧密的整体,像集成、元数据和治理功能将各个组件粘合在一起。
企业中不同的角色会关心不同的数据架构和方法论,数据网格(Data Mesh)、数据编织(Data Fabric)、湖仓一体(Data Lakehouse)是所有角色都会关注的三个数据框架和方法论。Cloudera则提供了适用于数据编织、数据湖库、数据网格和未来数据生态系统架构要求的混合数据平台。
构建未来数据生态系统架构
数据网格(Data Mesh)是数据与产品思维的融合。其是一种范式转变,数据由业务中的不同域拥有和管理,数据由最了解数据的域拥有,随时可供企业内的任何其他域使用。ThoughtWorks公司的工程师Zhamak Dehghani提出了数据网格的四个原则,分别是领域所有权原则、数据即产品原则、自助数据平台原则、联合计算治理原则。
数据编织(Data Fabric)各家评测机构都有自己的框架,Cloudera看来,数据编织的管控流程和之前所有数据管控方法一样,现在要做的不光要对人工的方式、手动数据管理进行服务,也要对未来的机器学习、自动的发现方式、对外进行服务,这个框架比以前要求更高。
湖仓一体(Data Lakehouse)集成并统一了数据仓库和数据湖的功能,在支持单一平台上的AI、BI、ML和数据工程。新技术能力支撑下,由上至下和由下至上的融合,适用于数据分析和机器学习工作负载。
Cloudera大中华区技术总监刘隶放表示,在企业内部针对不同的角色,要讲不同的数据架构和方法论,这之间并不矛盾。
Cloudera大中华区技术总监刘隶放
CEO、CIO、CDO关注如何在管理成本和维护人员规模的同时进行扩展,也就是数据你网格;CTO、CSO关注用什么技术方案保持一致性并构建标准模式,也就是数据编织;领域从业者关注在具体项目上的优化,也就是湖仓一体。
混合数据平台能做些什么
作为一家混合数据企业,Cloudera提供适用于数据网格、数据编织、数据湖仓和未来数据生态系统架构要求的混合数据平台,允许客户在多个公共和私有云以及本地访问和分析数据,使企业能够做出由数据驱动的明智决策,帮助企业建立由数据驱动的未来。
为什么说Cloudera是未来数据生态系统架构要求的混合数据平台,这主要源于三点,第一,开放数据编织、湖仓一体和数据网络,可以在任何地方提供大规模数据;第二,多云和本地数据管理和分析;第三,一次编写,随处运行的数据分析可移植性;第四,使用开放的云原生存储格式统一安全和治理,SDX能够真正帮助客户在新的形势下跨云,包括云原生、不同的存储中,做到数据统一的安全管控和治理。
“从产品构建角度,Cloudera数据平台可以支持现代数据架构。”刘隶放指出,Cloudera拥有三大核心优势,首先以更灵活且简单的方式帮助客户建立数据驱动型文化,其次以性能和成本效益驱动价值,最后与大量合作伙伴做开放性认证,支持开放的标准和互操作性,以速度和控制拉动企业增长。
从算力的角度来说,边缘计算非常重要,一些问题可以通过机器学习的处理模型在边缘进行处理,这对于数据安全性有要求的企业,可以实现数据要脱敏和过滤。
未来数据平台一定存在跨云模式,选择同一个平台,同一个计算引擎,到另外一个平台也可以使用,不需要改造,这是一个非常重要的考量的点。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。