至顶网软件频道消息: 数据已经成为整个社会的一个重要资产,越来越多的企业正在向数据驱动型企业转型。然而,数据的爆炸性增长,特别是非结构化数据的爆炸性增长使得这种转型面临巨大挑战。有研究显示,到2020年,平均每个互联网用户每天会产生1.5GB数据;一个智能工厂每天产生1PB数据…….未来数据量会越来越大,其中非结构化数据的增速要远远超过传统的结构化数据,使得企业从海量数据中获得洞察面临严峻的挑战。
10月31日,为了探求问题答案,Informatica 的300多名客户和合作伙伴来到2017 Informatica数据管理高峰论坛,共同就数据管理相关的话题进行了探讨。本次技术盛会以“智胜数据 颠覆未来”为主题,由 Informatica、至顶网和锦囊专家联合主办。
成立于1993年的Informatica ,是一家专业的数据管理解决方案提供商。因为专注于数据管理,所以并不为普通大众所熟知,但业内却拥有很高知名度,特别是在ETL方面,其旗舰产品PowerCenter运行在众多大型企业的数据仓库项目中。这些年来Informatica的产品线逐渐丰富,从ETL工具扩展到数据质量、数据安全以及云数据管理。
成立20多年来,Informatica是数据管理市场成长的见证者。Informatica亚太和日本区资深副总裁Murray Sargant用哈勃望远镜和哈勃望远镜接替者James Webb来比喻Informatica走过的三个时代。
Murray Sargant告诉记者,Informatica走过的第一个时代是PowerCenter,那是数据应用的早期,大家还不知道数据集成是什么,Informatica花了差不多十年把ETL做到做到最强;第二个时代Murray Sargant称其为哈勃望远镜时代,是大量的结构化数据、各种数据库以及各种ETL工具出现,Informatica也做得很好。
“现在是第三个时代,就是James Webb——下一代更强大的望远镜时代。在这个时代,更多的是非结构化的数据。我们在这个时代也要非常强。”Murray Sargant表示。
不过,对中国用户而言,大部分了解Informatica是始于2007年,这一年Informatica正式进入中国,当时云计算刚刚出现、大数据还处于萌芽状态。随后,云计算和大数据也都迅速得到普及,而赶上这一浪潮的Informatica在中国市场也得了迅速拓展,10年拥有了超过1000家客户。
今年正好是Informatica进入中国的十年,回顾Informatica在中国的10年岁月,Informatica大中国区总经理王晨杰表示:“这十年里,Informatica不忘初心,专注于数据管理领域,帮助上千家中国企业实现以数据为驱动的数字化变革。”
今年5月,Informatica在全球启动了新的战略目标,将企业战略从原来的ETL工具提供商提升为云数据管理领导者,同时发布了公司全新品牌标识。
在王晨杰看来这是Informatica的蜕变。“Informatica是传统的ETL专家和数据处理的工具专家,而今天我们要带着越来越丰富的市场实践经验和越跨时代的产品,去帮助企业去完成数据的整合,从而能够以数据来驱动它的数字化转型。因此,对Informatica而言今年是一个蜕变。”王晨杰表示。
在Informatica这一战略转变背后离不开产品的支撑,而EIC(企业信息目录)就是Informatica众多新一代产品中颇有代表性的一个。据记者了解,Informatica过去的产品线主要有两条,一条是大家所熟悉的主数据管理MDM,这是以客户为中心的解决方案。另外一条就是产品信息管理PIM,这是以产品为中心的管理。EIC则是另一个维度的产品。它不只是管客户数据和产品数据,还要整合社交网络的数据信息,也就是非结构化网络数据。EIC兼顾这三个领域,然后给客户一个统一的视角。
谈到EIC,Murray Sargant显得很兴奋。Murray Sargant表示,“EIC可以把Informatica带到全新的领域,也就是新的转型领域,这个转型完成之后,我们会真正处于一个非常前沿的位置。”
Murray Sargant说,EIC让他兴奋,除了EIC能把结构化数之外的非结构化数据(主要是社交数据)整合进来之外,另一个重要原因是其AI能力。由于EIC内置了人工智能引擎CLAIRE,EIC能通过人工智能驱动的元数据管理功能探查企业范围内所有的数据类型和数据关系,并对数据进行编目,这样就不会有任何的相关联数据或有用数据处于隐藏或混沌状态。
“以前很多需要手工操作的流程,比如说编码,现在通过CLAIRE就能自动化地来为客户提供服务。这样,在未来的数字化世界中,客户将能享受到更加便捷、高效的服务。这是EIC特别强大的地方之一。”Murray Sargant表示。
Murray Sargant说,正如我们仰望星空,有太多未知,从哈勃到James Webb让我们得以又往前走了一步。同样,人类探究数据的过程将是永无止境的,在大数据时代Informatica希望通过EIC等多项产品让我们探索数据的往前走一步。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。