至顶网软件频道消息:每家公司都希望业务高速增长,最好能出几个爆款产品或者爆款业务,从而带动公司营收高速攀升。但站在数据库管理员的角度,这却是实实在在的压力,业务高速增长必然带来数据量的暴增,如果持续增长超过了现有数据库的能力,就不得不走上分库、分表甚至最后替换数据库之路。
成立于2014年11月的深圳法大大网络科技有限公司(法大大)主要提供在线合同缔约、证据托管服务。成立以来公司一直在高速成长,根据法大大CTO陈立清提供的数据,法大大每天合同签署份数高达300万份,每个月新增的数据超过1TB,数据库中最大的证书表超过800GB。原来采用的是MySQL,为了应对数据的增长,法大大不得已对MySQL数据库进行拆分,同时还采用了一些新的技术手段,但这给程序设计带来很高的复杂程度,并且对用户性能也带来非常不利的影响。
类似的还有校宝在线(杭州)科技有限公司。校宝在线成立于2010年,主要为教育培训机构提供信息化解决方案和技术服务。此前也是MySQL的用户,由于业务发展很快,出现了单表亿条记录,单业务库几百GB的情况。此外,在业务开展过程中还时常需要扩容,而MySQL数据库的扩容需要很长时间,经常影响业务的正常开展。
法大大和校宝在线后来都采用POLARDB替换了原来的MySQL,很好地满足了业务需求。POLARDB是阿里云数据库团队研发的基于云计算架构的关系型数据库,直接对标AWS Aurora数据。去年9月份才刚刚宣布公测,今年4月份进行商业化。几个月来收获一批样板客户,受到了用户好评。
“Aurora数据库被AWS称为是增长速度最快的产品,我相信POLARDB也将是阿里云增长速度最快的产品。因为我们比它有更好的性价比、更好的性能。同时,还有我们更强的赋能中国客户的决心,以及我们对客户更好的支持和服务的力度。”在日前举行的杭州云栖大会期间阿里云数据库事业部总经理曹伟接受记者采访时表示。
阿里云数据库事业部总经理曹伟(左三)和POLARDB用户接受媒体采访
数据库与操作系统、中间件并称为核心基础软件,在IT软件堆栈中起着中流砥柱的作用,今天运行的绝大多数企业应用软件都离不开数据库的支持。
数据库算是一种“古老”的软件,尽管大数据技术得到了广泛应用,市场上也涌现出越来越多的新型数据库,如NoSQL数据库等,但今天关系型数据库仍然牢牢地占据主导地位。市场上应用得最为广泛的商用数据库产品,如Oracle、DB 2、SyBase、SQL Server以及开源的MySQL都属于关系型数据库。但不得不承认的是,这些数据库都先后诞生于上世纪八十、九十年代,面对云时代涌现新的数据管理需求力有不逮,这也正是以Aurora、POLARDB为代表的云数据库诞生的大背景。
2014年 AWS在re:Invent 2014大会上发布了Aurora云托管关系型数据库,从此开启了云数据的大门,2017年阿里云也推出了POLARDB,关系数据库进化的脚步就此进入快车道。
“这些年来数据库技术本质上来说没有什么颠覆性的发展。比如,传统数据库一直是基于已有硬件,很难做到按需扩展、按需付费。而POLARDB是一个云原生的数据库,原生地支持按需扩展、按需付费。这就是我们的机会。”曹伟表示。
在曹伟看来,云原生最重要的特点是弹性伸缩能力,即当用户业务量低的时候,就少分配资源,少付钱;当业务负载高的时候,通过只读节点等逐渐扩展的方式,让数据库支持业务的增长。
“传统数据库在购买的时候经常提到一个指标,就是多少存储容量,但今天在POLARDB上是不用指定这个容量的。同样,今天我们在CPU上也可以这样做,未来还会把CPU、内存、存储三个组件全部拆开单独计费。”曹伟表示。
他举例说,为支持大查询,用户可能要购买100个核或者是200个核,SQL才能进行大查询,这会导致极大的浪费,而按需付费、按实际计算时候使用的CPU个数和计算时间收费是大趋势。
另外,云原生数据库还有一个特点,就是用户需要什么功能就原生出什么功能而不是外挂。比如,传统数据库要做SQL安全,会用网络抓包的方式采用SQL采集。但今天在POLARDB里面集成SQL采集,对性能完全无损,这也是云原生的技术。
“云原生就是你以前怎么用数据库今天就怎么用,但背后就是一个分布式的系统来进行资源的调度、资源的隔离。”曹伟表示,“本质上是我们做复杂了,但是用户很简单。”
在今年的杭州云栖大会期间,阿里数据库团队对外公布了POLARDB的三个最新消息:第一,性能比去年快了2倍,达到AWS Aurora的两倍;第二,POLARDB支持15个只读节点,还支持会话一致性的只读能力;第三,推出SQL加速能力,让SQL的执行时间缩短一个数量级。
POLARDB的每一个进步背后都凝聚了技术团队的努力,以及对各种新技术的引入。比如,POLARDB在性能上的提升就与积极引入英特尔的傲腾有关。傲腾是英特尔推出的一种新的存储介质,基于3D XPoint技术实现。它能提供近似内存的访问速度,对于提升IO性能和提高稳定性以及改善用户体验都能起到了非常重要的作用。在英特尔工程师的支持下,POLARDB很早就开始使用傲腾,并且收获了非常不错的回报。
“采用傲腾后,POLARDB的写延迟有5倍缩小,读有10倍提升,总体说来QoS、性能都有明显提升,尤其是QoS。”曹伟表示。
他说,用了POLARDB之后,数据库的QoS稳定性指标提升了70%左右。而在此之前,POLARDB采用普通HDD、SSD时遇到数据库写入时常常会出现抖动,严重影响用户体验。曹伟透露,今天POLARDB的标配就是傲腾,目前双方还在评估傲腾数据中心级持久内存,不久也有望投入使用。
显然,这些技术的应用极大地提升了POLARDB数据库的性能和可扩展性,最终赢得了用户的认可。“兼容MySQL数据库; 容量突破MySQL 3TB的限制,达到100TB;更快的查询和统计性能,这是我们从MySQL迁移到POLARDB数据库的原因。”法大大CTO陈立清表示。
在校宝在线CTO胡淼看来,除了上述这几条优势之外。他看重的还有POLARDB的快速扩容能力和能提供会话级一致性的读取能力。“在MySQL中我们有些用户刚写入数据,再一查缺不显示,除非在刷新。而现在这个问题解决了。”胡淼表示。
作为阿里对标AWS Aurora数据库的产品,阿里对POLARDB数据库寄予厚望。曹伟告诉记者,对比AWS Aurora ,POLARDB不只有性能2倍的优势,还能让用户以更低成本使用,甚至与普通的RDS(如MySQL)相比,也能有成本优势。而且,尤为值得一提的是,这里的“省”不只是一种商战策略,很大程度上还是因为新技术的使用。
“比如,对于POLARDB数据库,如果只读用得越多,它就比普通的RDS越便宜,多的能便宜50%。”曹伟说。
这背后很大一部分原因是POLARDB采用了共享存储架构。曹伟介绍,POLARDB存储使用了三个副本来保证数据的一致性,由于采用了共享存储架构,即使只读节点再多也只有三份数据。而普通的RDS一般采用双核容灾,如果10个只读节点,就是两个副本再加十个只读,总共是12个副本。
“这意味着需要数据存12份,但在POLARDB是三个副本,无论多少个只读都是三个副本。而存储的钱也是很贵的,我们把存储的钱省下来了,用户可以少付。”曹伟表示。
当然,这背后有很高的技术含量,十几个数据库节点共享一个存储,目前掌握这种共享存储数据库技术的厂商屈指可数。另外,如前所说,POLARDB为了提升性能,在业界率先采用了傲腾处理器,这意味着成本上升,但POLARDB通过共享存储架构等多项技术成功地消化掉这些成本,从而让POLARDB与Aurora相比有明显的价格优势。
谈及POLARDB的下一步发展,曹伟表示,除了进一步改进按需付费能力,还会积极采用各种新兴技术,包括人工智能技术在数据库中的利用,他相信未来的数据库将是AI驱动的数据库。
“POLARDB的各种进步都可以归于技术的红利,我们会采用各种最新的产品和技术,以给用户提供更好用的数据库。”曹伟表示。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。