作者:Neo4j大中华区总经理方俊强
呈指数级增长的大数据已然超过了传统数据库的管理范畴。信息不仅在数量上增加,而且也更加复杂。企业正在构建与运营和客户相关的庞大数据存储库,每个实体都有多个信息点和信息层。问题在于如何以有意义和及时的方式存储、处理和分析数据。
许多企业正转向图数据科学存储数据并产生洞察力。对图数据科学的需求不断增加,遍及各行各业,包括金融服务、旅游、零售、公共部门和医疗保健等,希望解决其复杂的问题。
数据库平台 vs 图数据科学平台
如今,通过二维或电子表格显示客户数据库是一种极其有限的方法。这种方法可以存储和查询数据,但在数千行和单元格中,查询模式并不是一个简单或快速的过程。实现不同领域数据的关联极其困难:例如,不仅要确定客户是谁,还包括他们购买了什么、如何购买、在哪里购买以及为何购买。
Neo4j图数据科学利用数十亿甚至数万亿个数据点之间的关联和关系,让连接的数据“自己说话”,例如运行无监督图算法在噪声中发现信号。通过客户数据库,可以显示客户在社区如何互动,对数据分类提供有用信息。
使用图捆绑产品和服务可以实现数据价值最大化,建立每个产品和服务的统一数据库及其规则和关系,以确保捆绑适当的服务。拥有Neo4j图数据库使企业更容易管理其商业产品线层次结构。
另一个实例是一家主流汽车制造商通过创建用于测试数据的知识图谱可以缩短新车的上市时间。来自不同领域的工程师一直在以多种方式进行测试,并使用不同工具以各种格式存储测试数据。这导致了数据的不一致和孤立,对其他团队毫无用处。相反,Neo4j知识图谱关联了所有的产品验证生命周期数据,并允许在企业内整合领域和功能,定义关键元数据,例如测试类型、测量特征和测量条件。为测试、子测试和测量定义明确的语义,使工程师能够跨域和平台沟通。
预测而非应对的方法
在竞争激烈的行业中,企业需要领先一步。 例如,金融机构通常会在欺诈已经发生时才来解决。借助Neo4j图数据科学,个人和实体之间的可疑关联变得可见,可以更早地实施干预。知识图谱可以识别链接个体的链条和环,对与可疑实体有关联的关系做质量、数量和距离的评分。
当识别出一个欺诈圈时,也可以使用相似度算法来识别数据中其他潜在欺诈圈。一旦确定了预测特定结果的模型,即可在未来生成更精准的预测。
某财政部正使用Neo4j图数据科学绘制约150,000个人、公司和文件,以及这些实体之间的约750,000个关系。如果检测到可疑交易,则会分析图中所有与案例相关的信息和文件。法律专家还可以发现仅在第二或第三层次上才明显的关系,而不是只关注表层关系。
解锁供应链
过去几年,供应链面临极大挑战。上海和香港等许多港口都强烈感受到这一点,这些港口是全球主要的枢纽和货物运输中转站。解锁极其复杂的路线和参与者网络,尝试重新安排每天穿越海洋的数万艘集装箱船只的路线是一项极具挑战性的任务。
就本质而言,供应链管理是动态的,有许多变化的环节,并且可能在任何给定点出现瓶颈。但传统数据库生成的数据量大、细节多,缺乏实时、准确的信息处理能力。
相比较,Neo4j知识图谱擅长绘制复杂、相互关联的供应链,即使应对海量数据也能保持高性能。固有的以关系为中心的方法使他们能够更好地管理、读取数据并实现可视化。与传统 SQL 数据库相比,Neo4j图数据库的查询响应速度通常快100倍。
图数据科学对中国企业而言拥有巨大的应用潜力,中国占全球人口的1/5,不仅人口众多,也是经济增长最快的地区之一。通过图数据科学等技术充分利用大数据潜力的企业理当成为其所在领域的领导者。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。