大数据工程公司 dbt Labs Inc. 今天宣布收购 SDF Labs Inc.,这两家缩写命名的初创公司的合并旨在为客户提供更快的数据处理速度和更高的数据质量。
总部位于费城的 dbt Labs 是一款基于云的数据转换工具的开发商,企业可以使用该工具来转换数据,使其更易于处理和分析。这是一个全面的数据平台,可以执行多种功能,从将多个电子表格合并为单个文件,过滤数据集中的不准确信息,到更改跨多个数据库系统的数据格式。
该公司将 dbt Cloud 定位为一种"数据控制平面",旨在协助分析开发生命周期的每个阶段。它与多种数据仓库平台兼容,包括 Snowflake、Databricks 和 Google BigQuery。
至于 SDF Labs,这是一家于 2024 年 6 月才成立的新兴创业公司,它创建了一个框架,旨在解决可与任何平台配合使用的结构化查询语言的编译和理解挑战。该公司的技术使用 Rust 编程语言构建,并已经与 dbt 实现原生集成,能够在编写 SQL 代码的瞬间进行验证。
dbt Labs 创始人兼首席执行官 Tristan Handy 在博客文章中表示,这是一次实用的收购,为公司平台带来了原生 SQL 理解能力,将有助于"大幅提升开发者生产力"并提高整体数据质量。
通过在编写 SQL 代码时提供实时反馈,SDF Labs 帮助开发者采用代码补全和内容辅助等新技术,并在开发过程的早期识别错误和确保数据质量。据该创业公司称,这有助于提高数据处理速度和质量,使数据分析工作负载更加高效。
两家公司表示,SQL 理解的另一个好处是为 dbt Labs 的表格和列级血缘关系添加了一个新的极其详细的元数据层,增强了数据分类以支持更细致的治理。所有这些功能现在都将在 dbt Cloud 中原生提供。
"SDF 的技术将为 dbt 的核心和用户体验带来巨大升级,"Handy 说。"这不是对 dbt 的渐进式改进,而是一个阶跃式的变革。"
Constellation Research Inc. 的分析师 Doug Henschen 告诉 SiliconANGLE,SDF Labs 是 dbt Labs 的理想收购对象。他表示,其多方言 SQL 编译器、转换框架和分析数据库引擎被打包成一个已经与 dbt 工具集完美集成的命令行界面。
"它帮助以 SQL 为中心的用户(这几乎包括了所有 dbt 用户)识别和防止 SQL 错误,并改进和简化 SQL 工作负载的测试、治理和报告,"Henschen 解释道。"总的来说,dbt Labs 持续发展势头强劲,这次收购将比通过自身有机发展更快地改善其平台的整体用户体验。"
SDF Labs 的技术还将有助于改进 dbt Labs 的其他产品,如允许跨多个平台协调数据工作负载的 dbt Mesh,以及新的 dbt Copilot(这是一个生成式 AI 驱动的助手,可以帮助自动生成测试、文档、语义模型等)。
作为收购的一部分,SDF Labs 的整个团队将加入 dbt Labs,包括其首席执行官 Lukas Schulte。Schulte 表示:"将 SDF 和 dbt 结合在一起将通过前所未有的速度、准确性和效率完全改变 dbt 的用户体验。"
图片来源:SiliconANGLE/Meta AI
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。