NASA 的人力分析团队因成本问题,将原使用近十年的 Neo4j 图数据库换成 Memgraph。
团队高级数据科学家 David Meza 在最近的网络研讨会上表示,尽管他们使用 Neo4j 已经近十年,但成本问题日益突出。
Meza 曾在接受 The Register 采访时谈到,使用 Neo4j 图数据库系统的好处在于能整合 NASA 各企业应用中的数据,从而理解知识、技能、能力、任务与技术 ( KSATTs ) 与职业、角色及培训之间的关系。
但在最近关于 Memgraph 的网络研讨会上,他解释了转向这种基于内存的图数据库的原因。
他说:“使用 Neo4j 最大的问题是成本太高,我当前的环境承受不起这个费用。”
上周,特朗普政府提议将 NASA 的年度预算由 248 亿美元削减 24%,降至 188 亿美元,以削减政府开支。
Memgraph 同样使用与 Neo4j 相同的 Cypher 查询语言。不过,它使用 C++ 编写,并且与 Python 的集成效果优于采用 Java 构建应用的 Neo4j。
他表示:“它有很多优点。我们可以使用相同的工具而无需重新学习大量内容,因为我们在 Neo4j 上已经积累了大量经验。而后,Memgraph 展示了其成本优势,这促使我做出了这个决定。这不仅是出于成本考量,更因为转换过程十分便捷。”
NASA 正将 Memgraph 整合进其人力资本智能查询系统,以便为员工更快地检索相关信息。Meza 在一份声明中表示:“它基于图的数据结构使我们能够实时跟踪更新,确保各项政策文件和数据源之间的精确关联。通过将 Memgraph 融入到我们的检索增强生成过程中,我们提升了系统响应速度,并能更好地处理 NASA 的知识提取任务,同时无需进行大量手动数据协调。”
在接受 The Register 采访时,Memgraph 首席执行官 Dominik Tomicevic 表示,Neo4j 依赖于基于磁盘的复杂 B-tree 结构,并辅以内存缓存。“因此,为了运行图算法,需要在图中进行大量的随机跳转。”
由于磁盘设计用于顺序读取而非随机读取,所以其解决方案是复制数据,从只读格式中运行分析工作负载,并在需要时将结果写回原始数据。
Tomicevic 说道:“虽然在使用 Neo4j 时可以完成许多任务,尤其是在处理批量工作负载时,但如果需要实时作出决策,那么重建内存索引、重复所有数据、运行算法再将数据写回原始图形的成本将会大大增加。”
他还指出,在 Memgraph 中,数据结构首先为数据科学工作负载而构建。借助 snapshots ( snapshots ),这一内存系统不仅支持事务性工作负载,还能满足实时分析需求。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。