2022年是PingCAP走的最快的一年,为什么这么说。
因为在这一年中,TiDB的发版节奏和模型发生了变化,不仅第一次引入了LTS版本,同时形成以两个月为周期的迭代发版节奏。
而且今年5月TiDB Cloud也正式GA,短短大半年的时间里TiDB Cloud已经进行了超过34次迭代,增加了超过上百个功能特性和改进。
所以接下来PingCAP还要探讨点什么?“The Future of Database”就被定位今年PingCAP DevCon 2022的主题,而且PingCAP也给出了云原生数据库下一步的答案“Serverless”,它既是通向数据库未来的一张门票,也是驱动数据库变革的关键行动。
解放开发者的生产力
PingCAP一直在探索数据库的本质问题,developer到底需要什么样的数据库?这里的developer指的是真正开发应用的开发者。
一项关于组织内部谁在选择数据库的调查中显示,第一是架构师、第二是开发者、第三是 DBA,三者加起来占比超过 80%。“这些人都是广义上的开发者,对于数据库软件来说这些人是真正的用户。”PingCAP联合创始人兼CTO黄东旭说。
PingCAP联合创始人兼CTO黄东旭
搞清了人群,我们还需要搞清数据库的趋势“云化”。Gartner数据显示,2019 年云上的数据库服务(Database as a service)还不到传统数据库的一半,但今年几乎接近,而未来的数据库产品,Cloud一定会变成数据库服务的承载平台。
明确了以上两个背景,那现在数据库到底有哪些痛点?开发者到底在为什么烦恼?这些是黄东旭思考未来数据库产品形态想到的问题。
数据显示,开发者其实39%的时间在做业务创新、41%的时间做基础设施维护、真正的开发时间之占20%。
“当今把开发者拖慢的最核心原因是开发者的生产力。”黄东旭说,如果开发者的生产力提高了,业务创新、应用创新的速度就会变得更快。
我们发明了太多的技术,太多的数据库,开发者想要用好,就需要把每一个技术都学习一遍。黄东旭看到一家偏向开发者开发流程和体验的平台Vercel,在 Vercel 平台上,包括发布、部署、CDN、流量全都由 Vercel 帮忙封装好了,开发者只需要将 100% 的时间都放在业务逻辑开发上就可以了。
这是一个非常友好,且解放开发者生产力的模式。
所以黄东旭也认为,未来应用开发者对数据库的关注点会从数据库变成API,甚至在更长远的的未来只需要关注 Web 前端开发就好了。
Serverless云原生之后的新“抽象”
开发者变得越来越多,那数据库、数据技术、数据处理技术栈,怎么解决复杂性带来的矛盾呢?
黄东旭觉得这个问题的思路可以用一个词来解决——Abstraction(抽象)。
对于基础软件或者软件开发来说,架构的复杂性会变得越来越低,应该在数据技术这条路上再往前进行抽象,所以去年PingCAP把TiDB变成了一个云数据库TiDB Cloud。
下一级别的抽象是什么?PingCAP给出的答案是Serverless。黄东旭说,一个月前PingCAP在北美已经发布了TiDB Cloud Serverless Tier beta版,20 秒就可以创建一个 HTAP 数据库集群并获得流畅的开发体验。
“抽象程度越高,开发的效率就越高。”Serverless就会变成云原生之后新的“抽象”,对于数据库来说Serverless HTAP是一个更高级别的“抽象”,它意味着更高的开发效率。
Serverless HTAP可以给开发者带来什么好处?第一,可以让数据库的启动或者创建,不需要关心任何部署细节;第二,可以跟着业务的负载变化而自动匹配;第三,提供了一栈式的SQL能力;第四,实现更细颗颗粒度的收费Pay-as-you-go,第五,与现代开发者开发应用的过程体验深度整合。
正是有这样的构思,PingCAP通过大半年的时间,把第一个原型做出来,并在11月1日在线上公测,也就是TiDB Cloud Serverless Tier。
“TiDB Cloud Serverless Tier对云上所有的弹性资源都进行了很好的整合,实现巧妙的调度,提供了一个极致弹性的用户体验,这个用户体验比原来云原生数据库更往前跨越了一步,细节更少,抽象程度更高。”黄东旭说道。
具体的抽象可以理解为两个,第一个抽象是将服务器节点抽象成QPS、TPS流量这些业务指标;第二个抽象是将用户在做业务的过程中把不要考虑的内容隐藏起来。
在Serverless的架构下,TiDB也解锁了更多的能力和可能性。未来,真正能够做到Data Sharing数据共享,比如两个用户都在使用Amazon S3,共享就变得非常简单,当然里面还涉及隐私计算、安全性等问题。
在黄东旭看来,Serverless是云上数据库服务更进一步的产品形态体现,未来开发者所关心的应该只有数据操作的API,这一层才是离业务更近的。而且当 Serverless 在云上被提供后,数据共享、交换就变成了一个很自然或者很简单的事情,也有可能会出现Data market的新商业模式。
目前,国内仅有极少的数据库厂商开始发布Serverless 功能,这是一个数据库能力的杀手锏?还是数据先进性的试金石?所有国产数据库的从业者,都需要仔细思考这个灵魂拷问。
好文章,需要你的鼓励
国际能源署发布的2025年世界能源展望报告显示,全球AI竞赛推动创纪录的石油、天然气、煤炭和核能消耗,加剧地缘政治紧张局势和气候危机。数据中心用电量预计到2035年将增长三倍,全球数据中心投资预计2025年达5800亿美元,超过全球石油供应投资的5400亿美元。报告呼吁采取新方法实现2050年净零排放目标。
维吉尼亚理工学院研究团队对58个大语言模型在单细胞生物学领域的应用进行了全面调查,将模型分为基础、文本桥接、空间多模态、表观遗传和智能代理五大类,涵盖细胞注释、轨迹预测、药物反应等八项核心任务。研究基于40多个公开数据集,建立了包含生物学理解、可解释性等十个维度的评估体系,为这个快速发展的交叉领域提供了首个系统性分析框架。
AMD首席执行官苏姿丰在纽约金融分析师日活动中表示,公司已准备好迎接AI浪潮并获得传统企业计算市场更多份额。AMD预计未来3-5年数据中心AI收入复合年增长率将超过80%,服务器CPU收入份额超过50%。公司2025年预期收入约340亿美元,其中数据中心业务160亿美元。MI400系列GPU采用2纳米工艺,Helios机架系统将提供强劲算力支持。
西湖大学王欢教授团队联合国际研究机构,针对AI推理模型内存消耗过大的问题,开发了RLKV技术框架。该技术通过强化学习识别推理模型中的关键"推理头",实现20-50%的内存缩减同时保持推理性能。研究发现推理头与检索头功能不同,前者负责维持逻辑连贯性。实验验证了技术在多个数学推理和编程任务中的有效性,为推理模型的大规模应用提供了现实可行的解决方案。