11月29日,中国信通院2023年下半年“可信数据库”评估评测结果正式发布,由浪潮KaiwuDB 研发的开务数据库系统KaiwuDB V2.0 达到信通院时序数据库性能、稳定性测试标准。至此,KaiwuDB 已完成时序数据库基础能力、性能、稳定性全项评测,能够满足海量时序数据存储、处理、应用等各类场景数据管理需求。
KaiwuDB 是浪潮创新研发的、业内首款分布式多模数据库系统。在拥有分布式数据库的强一致、高可用分布式架构、分布式水平扩展、高性能、企业级安全等特性的同时,兼备多模数据库的特性,可支持时序、结构化、半结构化和非结构化数据的存储和分析。其中,时序引擎针对物联网、工业互联网、车联网、智慧产业等场景中数据体量大、采样频率高、数据乱序到达、分析需求多、存储与运维成本高等问题设计并优化,以创新研发的“就地计算”技术为依托,拥有海量时序数据高吞吐写入、高性能大批量复杂查询、原生AI 支持等优势,可实现工业数据的高效实时处理、智能分析、统一运管及低成本运维,帮助用户降本增效、提升决策科学性。此外,KaiwuDB 数据库系统在突发故障、高负载、资源占满等测试情况下拥有较强的韧性和故障恢复能力,匹配用户对数据库高可用和连续性的要求。
目前,KaiwuDB 分布式多模数据库已在智能制造、能源风电、智慧矿山等多个项目中应用落地,并在时序数据写入查询性能、水平扩展能力、大数据分析、云边端一体化能力等方面展现极大优势。作为“可信数据库”的一员,浪潮KaiwuDB 将持续专注于产品性能提升,以高吞吐、高压缩、高可用的新一代数据库系统夯实物联网数字底座,助力企业伙伴数字化升级。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。