OceanBase加装新引擎,数据库一体化战略再延伸 原创

一体化,正在成为当下数据库行业的一个重要趋势。

作为早在2016年开源的全球知名列式存储数据库,ClickHouse被广泛应用于大宽表AP查询场景。

这一开源数据库一直很卷,版本更新频繁,到今年2月,ClickHouse已经更新到了24.1版本,不仅增加了26个新功能,还对原有22个性能进行了优化。

但在更卷的国内数据库市场,也有选手在不断追赶着ClickHouse的步伐。

就在上周的第二届OceanBase开发者大会,OceanBase CTO杨传辉现场就新发布的OceanBase 4.3版本和内测版与ClickHouse两个新版本进行了跑分PK,结果显示,在大宽表场景,OceanBase的查询性能已经与ClickHouse处于同一水准。

这样的AP性能优化,是OceanBase对TP/AP一体化的再度增强,也是OceanBase一体化战略的重要一步。

OceanBase加装新引擎,数据库一体化战略再延伸

而一体化,也正在成为当下数据库行业的一个重要趋势。

单一数据库的能力边界

如果按业务需求划分,数据库往往会被分为做事务处理的数据库(OLTP)和做分析处理的数据库(OLAP),其中,由于需要大量业务长时间打磨,事务型数据库发展起来并不容易。

实际上,整个数据库的成长历程,都十分艰难。

自上个世纪八十年代发展至今的四十多年里,成长起来的主流数据库一只手就数得过来。

OceanBase加装新引擎,数据库一体化战略再延伸

虽然在互联网兴起后,各类业务对数据库的需求越来越高,但数据库行业依然主要由以Oracle为代表的商业数据库和以MySQL为代表的开源数据库提供服务。

而在业务复杂度越来越高、访问量越来越大,对于数据库也提出了诸如敏捷伸缩、实时分析等诸多需求,企业普遍需要搭建多个数据库来满足这些业务需求。

在这些数据库系统中,企业中往往是TP一套系统,AP又是一套系统,中间还需要一个数据转换和加载的系统,要想在这样的系统架构中实现数据的实时存取和分析,几乎是不可能完成的任务。

这时,HTAP开始越来越多被提及,TP/AP一体化也开始登上历史舞台。

蚂蚁是在2010年由阳振坤带队开启分布式数据库OceanBase自研之路的,并在2022年8月发布OceanBase 4.0版本时,首次实现单机分布式一体化架构。

实际上,在过去这十几年里,OceanBase从最初专注于事务处理场景,已经逐步实现了工程一体化、TP/AP一体化、云上云下一体化、单机分布式一体化,用一个数据库满足客户80%的场景需求。

对于TP/AP一体化的重要意义,OceanBase CTO杨传辉在今年的OceanBase开发者大会也以与跨越速运的合作为案例进行了解释:

跨越速运成立于2007年,主营业务是企业级客户门到门的快递服务,这家公司此前在某个偏分析类的场景使用的是HBase+Kafka+StarRocks方案,这个方案链路复杂、自研成本也很高,由于链路复杂还导致了数据处理时间长。

通过与OceanBase的合作,跨越速运实现了数据库的多合一,用一套系统解决了原来多套系统的问题,硬件成本降低了50%,同时数据处理的时效提升了50%。

OceanBase加装新引擎,数据库一体化战略再延伸

据杨传辉介绍,“OceanBase在去年下半年提出了一体化数据库,基于此前的单机分布式一体化架构,构建了对KV、多模,乃至未来对AI融合的能力,并能够支持各种各样的不同的工作负载。”

就这样,OceanBase通过一个数据库、一套架构、一份数据、一个技术栈、一个引擎的方式,已经可以实现多模型、多兼容模式、多租户、多工作负载、单机分布式一体化架构、多基础设施。

破解TP/AP一体化难题

HTAP是近年来兴起的一类数据库,准确来说,应该说是一种新型计算存储架构。

2014年,Gartner对HTAP给出了明确定义:

基于创新的计算存储框架,可以同时支持OLTP和OLAP场景,在同一份数据上保证事务的同时支持实时分析,且不再需要额外的ETL过程。

OceanBase加装新引擎,数据库一体化战略再延伸

实际上,这也奠定了后续TP/AP一体化的发展趋势。

这样的发展趋势,源于大数据技术的兴起,以及用户对于OLAP需求越来越大。

作为在2021年对外发布HTAP混合引擎并正式开源的数据库,OceanBase在发展过程中,不少技术和功能的更新,同样是受开发者需求驱动开发而来。

对此,杨传辉深有体会。

“OceanBase涉及最深的场景是OLTP场景,但由于采用的分布式架构拥有高性价比、高压缩的能力,所以它天然适合处理海量数据。

实际上,在OceanBase还不支持列存的情况下,一些开发者就已经将OceanBase用到了实时AP和多模应用场景中。

使用后发现,OceanBase的分析能力虽然不是最好的,但由于自身高压缩比的特性所在,整体性能成本其实并没有比专用AP数据库有太大差距。”

传统的HTAP模式,更像是OLTP PLUS——在OLTP基础上支撑实时OLAP的能力。

OceanBase加装新引擎,数据库一体化战略再延伸

这时的HTAP有两种应用场景:

第一种应用场景是,OceanBase所有的副本都采用相同的行存或行列混合式存储,由主副本直接提供服务。

这一模式的好处是数据完全没有延迟,数据一致性能够得到保证,但对AP场景的支持能力偏弱,更适合的是OLTP+轻量OLAP场景。

第二种应用场景是,OceanBase主副本采用行存或行列混合式存储,但其中某一个或几个副本采用列存模式。

这一模式主备之间虽然有延时,但可以更好地支持OLAP的能力,更适合OLTP+中等OLAP场景。

不过,杨传辉指出,即使有这两种灵活的部署模式,HTAP也不是万能的。

“HTAP更适合数据量在几百GB到几百TB的场景应用场景,如果数据量再大,很多大公司现在依然是将TP和AP这两套系统分开部署。”

杨传辉认为,真正的TP/AP一体化,其实不是把TP/AP放到一个系统中,而应该是将分布式的TP能力融合到AP系统中,由此形成更易用的新型实时数据库。

OceanBase加装新引擎,数据库一体化战略再延伸

传统的OLAP系统有很强的大宽表查询能力,AP生态适配很强,但无法做实时写入,而且由于不支持行存,又无法做实时点查,再加上没有在核心业务场景中长时间应用,AP系统兼容性和功能性往往与TP系统有一定的差距,可靠性和稳定性也有所欠缺。

从TP场景做起的OceanBase,在过去几年里在金融场景的核心业务系统经过长时间的打磨,在可靠性和稳定性上有很好的表现,并且拥有实时写入、动态查询、扩展性和容灾能力。

如果将这些能力与传统的AP能力结合,就可以得到一个真正的TP/AP一体化的数据库系统。

这就是OceanBase 4.3版本的研发思路。

就在上周的OceanBase开发者大会上,OceanBase 4.3版本正式发布,基于上述设计思路,OceanBase在4.3版本中引入列式存储引擎,强化了TP/AP一体化。

OceanBase加装新引擎,数据库一体化战略再延伸

具体而言,OceanBase 4.3版本从AP存储入手,基于LSM-Tree架构推出列式存储引擎,实现了可行存、可行列混存和可列存的多种存储方式,同时融入分布式TP核心能力小事务写入技术,有效消除了数据导入延迟,满足更严苛的AP实时分析需求。

此外,基于Column数据格式描述的2.0向量化引擎和物化视图,OceanBase 4.3版本进一步提升了深度AP场景下的性能表现,可实现秒级实时分析,极大提升了OLAP实时分析的能力。

这样的能力更新,也成了OceanBase一体化战略的进一步延续。

一体化的大势所趋

2023年是人工智能技术大爆发的又一年,生成式AI、具身智能、多模态大模型等通用人工智能技术的出现,对数据存储和处理有了新的需求,数据库也面临着新的机遇和挑战。

清华大学教授、蚂蚁技术研究院院长陈文光指出,未来数据库将面临三大重要趋势:

第一,在线离线一体化;

第二,向量数据库与关系数据库一体化;

第三,数据处理与AI计算一体化。

这样的趋势将会使数据库向一体化再度演进,也为本就追求一体化数据库的OceanBase提出了更高的要求。

实际上,在今年的OceanBase开发者大会上,杨传辉也公布了接下来一年里OceanBase的更新计划,在这份计划中,我们看到了包括物化视图、全文索引、向量数据库、基于S3的存算分离这些功能都将在接下来这一年里上线。

OceanBase加装新引擎,数据库一体化战略再延伸

根据国际咨询机构Forrester《OceanBase总体经济影响报告》的数据显示,采用OceanBase后,企业数据存储空间节约70%、服务器资源节约85%、平均每注册用户数据库成本节约50%,且呈现逐渐成本节约递增的趋势,越用越便宜。

在OceanBase引入列式存储引擎、强化TP/AP一体化能力后,这样的技术更新将进一步加速数据库一体化演进速度,也将为数字化转型进一步提质增效。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2024

04/23

14:08

分享

点赞

邮件订阅