IBM正在不断提升其数据质量能力,今天宣布将收购一家名为Databand.ai的公司,交易金额未对外公布。
Databand.ai是一家数据可观察性软件的提供商,其软件可以帮助企业解决任何数据相关问题,例如错误、管道故障和质量差等问题。
IBM表示,当企业越来越依赖大量信息为业务决策提供支撑的同时,数据质量也变成了企业面临的一个大问题,企业需要一种方法来了解系统中数据的健康状况,以便他们能够在这些问题影响业务之前就发现问题并对其进行修复。
所谓“坏数据”是指不准确或者不完整的数据可能会导致人工智能系统和用于评估特定产品需求的预测模型等服务出现巨大的问题。如果导入这种系统中的数据存在缺陷,那么由此生成的结果就是不可信的,因此就需要数据可观察性工具来确保信息的质量不受影响。
对于大型企业来说,坏数据是一个大问题。据Gartner估计,企业组织平均每年在解决坏数据问题上的花费高达1290万美元。
Databand.ai是数据可观察性领域的一个领先者,它使用历史趋势来计算有关数据工作负载和数据管道的统计数据,以确定这些数据是否被恰当使用以及是否可能存在问题。IBM表示,Databand.ai采用了一种开放且可扩展的数据可观察性方法,可以轻松集成到现有数据基础设施中。
IBM计划将Databand.ai的工具和IBM Observability by Instana APM以及IBM Watson Studio等服务相结合,增强在数据可观察性领域的现有能力。例如,Databand.ai可以提醒团队出现数据不完整或数据缺失等问题。
然后,该团队可以使用Instana找出丢失数据的来源,以及导致应用或服务出现故障的原因。IBM表示,通过同时使用这两种工具,客户可以更全面地了解应用基础设施和数据管道,从而更容易解决任何问题。
Constellation Research分析师Dough Henschen解释说,坏数据对企业来说仍然是一个非常现实的挑战,主要问题之一就是随着生成数据的系统发生变化或故障,“好数据也会变成坏数据”。
“数据可观察性是一种不断发展变化的方法,其中信息不仅仅是作为准备或转换过程的一部分被清理,相反,它会持续地监控和跟踪数据质量,并主动提醒下游系统的所有者、管理者和用户采取预防或补救措施,以便在动态环境中出现问题时让数据质量回归正轨。”
IBM公司数据和人工智能总经理Daniel Hernandez表示,IBM有很多客户都是数据驱动型企业,他们依靠高质量的、可信赖的信息来为他们的关键任务流程和应用提供动力。
Hernandez说:“如果他们无法访问所需的数据,业务可能就会陷入停滞。随着Databand.ai的加入,IBM将为IT跨应用、数据和机器学习提供最全面的可观察性功能组合。”
这家位于以色列特拉维夫的公司将归属于IBM数据和人工智能业务部门,该部门还包括了IBM Watson和IBM Cloud Pak for Data,Databand.ai的工具将以软件即服务或者自托管软件订阅的方式提供给客户。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。