OceanBase在其“关键业务负载”的一体化战略上再迈一步。4月20日在第二届OceanBase开发者大会上,OceanBase发布4.3版本,推出全新列式存储引擎,打造PB级实时分析数据库,可实现秒级实时分析,进一步加强TP/AP一体化。现场跑分显示,在同等硬件条件下,OceanBase4.3的AP查询性能已达到业内一流列存大宽表数据库同一水平。
作为一款100%根自研数据库,OceanBase持续践行一体化数据库的产品战略,以负载关键业务系统。2022年OceanBase 4.0发布,从技术上首次突破分布式数据库的单机性能瓶颈,实现单机分布式一体化。目前在一体化上,OceanBase已实现单机分布式一体化、TP/AP一体化、云上云下一体化、多模一体化等,用一个数据库满足客户80%的场景需求。
OceanBase 4.3深入探索TP/AP一体化。此前,面向企业在强OLTP场景中的AP需求,OceanBase构建了混合事务和实时分析处理(HTAP)能力,在OLTP基础上,提供复杂查询优化、秒级低时延响应、水平线性扩展(千/亿级数据关联查询)能力,部分满足了企业的AP场景需求。
但OceanBase注意到,随着数字化发展,越来越多企业需要更强的数据实时分析能力,如何在分布式数据库的架构中实现更强的AP性能,成为OceanBase探索的又一命题。
OceanBase 4.3从AP存储入手,基于LSM-Tree架构推出列式存储引擎,实现可行存、可行列混存和可列存的多种存储方式,同时融入分布式TP核心能力小事务写入技术,有效消除数据导入延迟,满足更严苛的AP实时分析需求。同时全新推出基于Column数据格式描述的2.0向量化引擎和物化视图,进一步提升了深度AP场景下的性能表现,可实现秒级实时分析,极大提升OLAP实时分析的能力。
相较于实时分析数仓,OceanBase在实时分析这一场景上具备实时写入、读写强一致、大规模并行处理、管理运维难度低等优点。
OceanBase CTO杨传辉介绍,OceanBase将持续践行“关键业务负载”的一体化战略,今年将重点打造PB级实时分析数据库的最强六边形战士,持续提高TP性能、分布式、兼容性、AP存储、AP计算、AP工具生态能力。未来,PB以下企业在AP应用场景中,无论是HTAP、还是OLAP,都可选择使用OceanBase。
发布会现场,在同等硬件条件下,OceanBase 4.3还同业内一流的列存大宽表数据库进行了跑分PK。结果显示,在大宽表场景,两者的查询性能处于同一水平,这一查询性能是衡量数据库AP能力的重要指标之一。
除AP性能优化外,OceanBase 4.3的TP性能、易用性也进一步增强,估行系统、统计信息、代价模型、Online DDL、会话管理、日志流、租户克隆等方面都得以优化,提升数据库在关键业务负载中的性能和稳定性。
目前,OceanBase已经服务超过1000家行业客户,其中30%将其应用于核心系统。例如,海底捞将OceanBase应用于会员系统,既做事务处理又进行实时分析,为每一位会员推荐定制化内容,实时分析算力提升30%,数据库成本下降35%,更从容应对七夕、双旦等节假日流量高峰。
杨传辉认为,OceanBase 4.3在TP/AP一体化上的进一步突破,也是OceanBase坚持100%根自研的产品力结果。不基于开源数据库二次开发、自建研发环境和流程,才使OceanBase具备对内核代码的完全掌控力和掌控权,才具备更强的突破复杂业务场景和为关键业务系统兜底的能力。
会上,OceanBase还介绍,已从开发工具、开发生态、自助体验三方面进一步提升数据库易用性,打造真正对开发者友好的数据库。
目前,OceanBase Landscape技术生态已扩展至超750个主流产品,覆盖基础设施、数据集成、数据治理、应用集成等多个领域。在OceanBase的开源社区,目前已有118位开发者开通博客,累计有1000多篇技术文章分享,核心仓库拥有300多位外部贡献者,共建代码量超5万行。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。