至顶网软件频道消息: 数据已经成为整个社会的一个重要资产,越来越多的企业正在向数据驱动型企业转型。然而,数据的爆炸性增长,特别是非结构化数据的爆炸性增长使得这种转型面临巨大挑战。有研究显示,到2020年,平均每个互联网用户每天会产生1.5GB数据;一个智能工厂每天产生1PB数据…….未来数据量会越来越大,其中非结构化数据的增速要远远超过传统的结构化数据,使得企业从海量数据中获得洞察面临严峻的挑战。
10月31日,为了探求问题答案,Informatica 的300多名客户和合作伙伴来到2017 Informatica数据管理高峰论坛,共同就数据管理相关的话题进行了探讨。本次技术盛会以“智胜数据 颠覆未来”为主题,由 Informatica、至顶网和锦囊专家联合主办。
成立于1993年的Informatica ,是一家专业的数据管理解决方案提供商。因为专注于数据管理,所以并不为普通大众所熟知,但业内却拥有很高知名度,特别是在ETL方面,其旗舰产品PowerCenter运行在众多大型企业的数据仓库项目中。这些年来Informatica的产品线逐渐丰富,从ETL工具扩展到数据质量、数据安全以及云数据管理。
成立20多年来,Informatica是数据管理市场成长的见证者。Informatica亚太和日本区资深副总裁Murray Sargant用哈勃望远镜和哈勃望远镜接替者James Webb来比喻Informatica走过的三个时代。
Murray Sargant告诉记者,Informatica走过的第一个时代是PowerCenter,那是数据应用的早期,大家还不知道数据集成是什么,Informatica花了差不多十年把ETL做到做到最强;第二个时代Murray Sargant称其为哈勃望远镜时代,是大量的结构化数据、各种数据库以及各种ETL工具出现,Informatica也做得很好。
“现在是第三个时代,就是James Webb——下一代更强大的望远镜时代。在这个时代,更多的是非结构化的数据。我们在这个时代也要非常强。”Murray Sargant表示。
不过,对中国用户而言,大部分了解Informatica是始于2007年,这一年Informatica正式进入中国,当时云计算刚刚出现、大数据还处于萌芽状态。随后,云计算和大数据也都迅速得到普及,而赶上这一浪潮的Informatica在中国市场也得了迅速拓展,10年拥有了超过1000家客户。
今年正好是Informatica进入中国的十年,回顾Informatica在中国的10年岁月,Informatica大中国区总经理王晨杰表示:“这十年里,Informatica不忘初心,专注于数据管理领域,帮助上千家中国企业实现以数据为驱动的数字化变革。”
今年5月,Informatica在全球启动了新的战略目标,将企业战略从原来的ETL工具提供商提升为云数据管理领导者,同时发布了公司全新品牌标识。
在王晨杰看来这是Informatica的蜕变。“Informatica是传统的ETL专家和数据处理的工具专家,而今天我们要带着越来越丰富的市场实践经验和越跨时代的产品,去帮助企业去完成数据的整合,从而能够以数据来驱动它的数字化转型。因此,对Informatica而言今年是一个蜕变。”王晨杰表示。
在Informatica这一战略转变背后离不开产品的支撑,而EIC(企业信息目录)就是Informatica众多新一代产品中颇有代表性的一个。据记者了解,Informatica过去的产品线主要有两条,一条是大家所熟悉的主数据管理MDM,这是以客户为中心的解决方案。另外一条就是产品信息管理PIM,这是以产品为中心的管理。EIC则是另一个维度的产品。它不只是管客户数据和产品数据,还要整合社交网络的数据信息,也就是非结构化网络数据。EIC兼顾这三个领域,然后给客户一个统一的视角。
谈到EIC,Murray Sargant显得很兴奋。Murray Sargant表示,“EIC可以把Informatica带到全新的领域,也就是新的转型领域,这个转型完成之后,我们会真正处于一个非常前沿的位置。”
Murray Sargant说,EIC让他兴奋,除了EIC能把结构化数之外的非结构化数据(主要是社交数据)整合进来之外,另一个重要原因是其AI能力。由于EIC内置了人工智能引擎CLAIRE,EIC能通过人工智能驱动的元数据管理功能探查企业范围内所有的数据类型和数据关系,并对数据进行编目,这样就不会有任何的相关联数据或有用数据处于隐藏或混沌状态。
“以前很多需要手工操作的流程,比如说编码,现在通过CLAIRE就能自动化地来为客户提供服务。这样,在未来的数字化世界中,客户将能享受到更加便捷、高效的服务。这是EIC特别强大的地方之一。”Murray Sargant表示。
Murray Sargant说,正如我们仰望星空,有太多未知,从哈勃到James Webb让我们得以又往前走了一步。同样,人类探究数据的过程将是永无止境的,在大数据时代Informatica希望通过EIC等多项产品让我们探索数据的往前走一步。
好文章,需要你的鼓励
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。
这项研究探讨了多模态大语言模型在增强推理能力时出现的视觉幻觉问题。研究发现,模型生成更长推理链时,对视觉信息的关注减少,导致幻觉增加。研究者提出RH-AUC指标和RH-Bench基准来评估模型在推理与幻觉间的平衡,发现较大模型表现更好,纯强化学习训练优于监督微调加强化学习,且训练数据的类型比数量更重要。这些发现对开发既具推理能力又保持视觉准确性的AI系统具有重要意义。
这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具有任务相关性(如逻辑任务中的语法熵AUROC>0.93)。他们的轻量级信号融合方法能减少14-100%的错误,仅需最小弃权,将大语言模型驱动的形式化转变为可靠工程学科。研究揭示当模型正确理解逻辑关系时会产生稳定的语法模式,为判断何时信任模型提供了可靠指标。
来自沙特阿拉伯王子苏丹大学和阿尔法萨尔大学的研究团队开发了GATE(General Arabic Text Embedding)模型,这是一套专为阿拉伯语设计的文本嵌入系统。该研究结合了套娃表示学习和混合损失训练方法,解决了阿拉伯语特有的语义处理挑战。GATE模型在MTEB基准测试的语义文本相似度任务中表现卓越,比包括OpenAI在内的更大模型高出20-25%,同时保持了多维度(768至64)的高效表现。研究通过详细的错误分析揭示了模型在不同相似度水平上的表现特点,为阿拉伯语NLP领域提供了新的研究方向。