至顶网软件频道消息: “数据是企业的资产”这句话如今算是耳熟能详了,也得到了普遍认可,不少人提到这句话时还会加上“核心”或者“重要”等形容词,对数据的重视不言而喻。但是,不少企业对自己的这份资产了解并不多,到底有哪些数据,它们之间有什么样的关系,这些数据关联到哪些业务流程?少有企业能够说清楚。要清楚地回答这些问题就需要数据治理。
数据治理并不是一个新概念,最近因为5月份在欧盟推行的《通用数据保护条例》(General Data Protection Regulation,简称GDPR)炒得火热。因为根据欧盟的规定,企业如果违反GDPR,可能面临高达营业额4%的罚金。“2018 Informatica数据治理高峰论坛”正是在这个背景下召开的,其迎来了业界广泛关注也在情理之中。
Informatica大中国区总经理王晨杰今天,不少企业在进行数字化转型,它与数据治理也有密切的联系。因为数字化转型的前提就是数字化,也就是要有数据,有了数据就需要数据治理,数据量越大、类型越复杂就越需要。
“数据已经显示其划时代的颠覆力量,数据驱动数字化转型的时代已经来临。“Informatica大中国区总经理王晨杰在演讲中表示。
王晨杰将数据的利用分为三个阶段,第一个阶段数据只用于特定业务应用,即Data 1.0;第二阶段,数据用于支持企业范围内的全业务流程,即Data 2.0;如今是第三个阶段,数据驱动数字化转型的Data 3.0时代。
Informatica全球数据治理高级总监Patrick Dewald在演讲表示,数据是企业数字化转型的基础,在此基础上才能支持企业的新的业务模式、新流程、新模式、新的基础架构,而这个过程需要数据治理的介入。
Informatica全球数据治理高级总监Patrick Dewald
“数据治理让企业可以对自己拥有的数据有一个全面的了解,比如有哪些数据、数据质量如何、数据之间是什么关系、分别在哪个业务流程中涉及等。它能为数据的合规和有效使用奠定一个非常好的基础。“Patrick Dewald说。
Patrick Dewald举例说,有一个大型企业拥有25000张数据表,数据在不同表之间构成了复杂的关系,不借助数据治理工具的帮助,要弄清楚这个关系几乎不可能。
据悉,当前企业选用数据治理解决方案的动因主要有两个,一个法律法规的规定,也就是合规;另一个是企业的内省,企业需要全面了解企业自己的数据资产。
采访中Patrick Dewald强调说,近期因为欧盟GDPR让合规成为很多客户的首选需求。未来后一需求会更多。而就长远来看,随着更多类似GDPR法规的推出、企业对数据的日益重视、更多人参与到数据的使用、以及不断增长的数据量和数据类型都会让数据治理整体市场快速增长。
经过多年的技术演进,与几年前相比,如今数据治理技术发生了很多变化,并因此有了下一代数据治理(或者新一代数据治理)的说法。
Patrick Dewald解释说,过去的数据治理有几个典型特征,其一是自上而下推动,上面先制定政策,然后推动、监测和管控政策标准的执行 ;第二是只关注数据,所有的工作都围绕数据,比如会出台各种数据定义、数据政策、数据规则、数据委员会;第三,治理是否成功主要看是否有足够多的规定,这会导致更多的治理政策、规则、标准、委员会等推出。
“传统的数据治理的主要问题是关注于数据本身,而没有首先关注业务价值。数据只有创造业务价值对于企业而言才有意义。“Patrick Dewald表示,这也是新一代数据治理有别于传统数据治理的主要不同。
据悉,新一代数据治理能通过关联政策、技术和运营来实现治理,并促进利益相关方之间的协作;同时,还能收集业务中的知识和上下文,并通过在合适的业务场景中监测和报告成果,来保证数据治理利益相关方始终拥有对数据的控制权。除此之外,新一代数据治理还进一步降低了使用门槛,产品让更多人使用,同时,还能支持更广泛的协作和联网。
Patrick Dewald将新一代的数据治理称为“智能数据治理”,这是因为其中大量引入了人工智能技术。以Informatica的数据治理解决方案为例。Informatica已经把前沿人工智能技术融入到产品方案中,来帮助企业充分挖掘数据价值、释放数据潜能、深耕数据红利。Informatica近期发布的基于人工智能的自动化智能数据治理方案,通过将Axon数据治理集成到数据质量、企业数据目录和Secure@Source中,以整体、协作的方法将员工、流程和系统流畅融合,为全新的企业数据治理提供强大动力,有效推动业务和IT的相互协作,以及数据治理计划的共同实施,提升数据的可靠性和质量,实现可信数据和受保护数据的可靠交付,进一步提高数据治理效率,促进战略业务计划实施。
针对当下备受关注的“安全合规“需求,Informatica将数据安全作为全局考量,纳入所有产品和方案的设计与落地中,如AXON的数据理解和治理特性,Secure@Source探查和分析敏感数据能力,主数据管理的授权管理和规则制定,以及通过数据脱敏、归档、清洗获得更安全的数据,全面满足数据保密、保护及合规要求。
据悉,Informatica的数据治理产品和解决方案已经在全球财富500强中得到广泛应用。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。