一场不期而至的疫情给不少企业的生产经营带来不小的影响,使得很多活动被迫转到了线上,包括很多新闻发布会。日前,阿里云也举办了一场线上的活动——云上的峰会,在会上阿里云发布了包括第七代ECS、POLARDB-X数据库、视觉智能开放平台、新一代阿里云数据中台、阿里云专有云敏捷版和混合云管理平台、云原生数据仓库和数据湖解决方案,以及城市大脑3.0、政务中台、阿里巴巴未来社区等众多行业解决方案。
从全面上云到加速重构
近几年,云计算在中国得到快速普及,不少企业或多或少从云计算技术中受益。阿里云继去年提出要全面上云之后,今年提出要深化云的应用,也就是“加速重构”。
在阿里云智能总裁张建锋看来,全面上云是一个技术性阶段,重点在于从原来的非云基础设施转变为云;而全面重构是一个更强的深化。
阿里云智能总裁张建锋
“上云更多着眼于技术升级,而要重构,就需要关注的面会更广,包括理念要升级,组织要升级,经营模式、运营模式要升级。”张建锋说。
基于这一个认识,张建锋表示,阿里云明确提出要“做深基础,做厚中台,做强生态”。所谓“做深基础”是指继续要做芯片、数据库、路由器、交换机等,基于云的特点来构建整套的IT基础体系。
“做厚中台”是在“中台”这个新型的操作系统上提供更多的功能,以方便上层的应用开发,这些功能包括AI能力、大数据的处理、IOT的能力以及对移动。值得一提的是,在阿里的中台中钉钉被赋予了重任,张建锋表示,钉钉已经远不只是一个沟通工具,它更是一个平台,阿里中台的重要组成部分。
“做强生态”是指不是阿里云来做所有事情的。阿里云愿意在一个开放的体系中,让所有软件开发商、其他合作伙伴基于云的结构、基于一个新型的操作系统来帮助各行各业完成应用的开发和交付。
“我们提出做深基础、做厚中台、做强生态,这是我们作为数字经济时代基础的一个主要的出发点,也是一个落脚点。
云原生的分布式数据库PolarDB-X
在阿里云线上峰会上,阿里云一口气发布六款产品和多款解决方案,这也是具体落实张建锋所说的“做深基础、做厚中台、做强生态”战略。阿里云的分布式数据库PolarDB-X也是其中之一。
PolarDB-X采用了基于云原生一体化架构设计,这款阿里云自研的分布式数据库可支撑千万级并发规模,专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等瓶颈问题。
PolarDB-X很容易让人联想到2018年阿里云推出的云原生数据库PolarDB,这也是阿里云数据库业务中成长最快的业务。PolarDB本质上还是一个集中式数据库,但它其实已经享受到分布式技术的红利了,PolarDB采用了计算、存储分离的架构,其底层采用的就是分布式共享存储,从而可以保证数据库的海量存储能力,而PolarDB-X将这种分布式的能力扩展到了计算层。
“PolarDB的计算是一写多读多个计算节点,最多做到16个节点,现在,PolarDB-X相当于在PolarDB之上又加上了一个分布式拓展层,这样可以根据企业的并发需求、数据量进行水平拓展。”阿里巴巴副总裁、阿里云数据库负责人李飞飞说。
阿里巴巴副总裁、阿里云数据库负责人李飞飞
在李飞飞看来,PolarDB-X的一大亮点是借助PolarDB-X的水平拓展层来支持分布式的事务处理和分布式查询,并最终为客户提供一个完整的从云原生再到分布式架构上的升级路径。另一个特点是,PolarDB-X是一体化透明式分布式数据库,也就是说业务系统不需要去关心,也就是不需要传统的中间件,也不需要分布、分表,因此对业务系统的侵入性会非常非常小。
据悉,PolarDB-X也是阿里巴巴核心系统正在使用的数据库。PolarDB-X连续多年稳定支撑了天猫双11,在1秒钟内系统负载增加了135倍情况下依然保持稳定,峰值TPS达8700万次,但成本仅为传统数据库的 1/6。
云数据库是技术演进的必然趋势
发展至今,数据库已经有超过40年的历史,特别是关系数据库不管是历史还是技术都已经非常成熟,而随着云计算的普及,数据库市场迎来快速变革,这就是以云原生数据库为代表的新一代数据库的出现。Gartner曾就此专门发布研究报告认为,数据库的云化是必然趋势。
李飞飞在接受采访时表示,云原生数据库是技术自然演进的必然结果。不管是在中国市场还是海外市场,都可以看到云原生架构为企业业务带来的实实在在的技术红利。从市场来看,这几年云数据库的崛起也的确非常迅速,开始抢占传统数据库的市场。
李飞飞认为,云实现了资源池化,但要把资源池化的优势发挥出来,还要用分布式的能力实现水平拓展、弹性、高可用。
“把云原生和分布式能力完美良好的结合在一起,同时再利用K8S容器化的这种部署方式,可以使得整个运维管控大大简化、编排大大简化,这是整个数据库技术的第一个趋势。”李飞飞说。
除了数据库的云化之外,李飞飞认为数据库技术还有以下两个明显趋势:
一个是数据仓库和数据库系统一体化,即HTAP数据库。如果数据库和数据仓库一体化,就是实现数据交易处理和数据分析利用同一套系统处理,好处是数据从生产到处理到存储到消费,可以完美的处理好,而不用将数据在各个系统之间来回迁移。
最后是智能化。得益于人工智能技术的快速进步和普及,智能化已经在数据库的各个层面得到应用,并且与数据库系统进行深入整合,帮助实现数据库运维的智能化、自动化,也就是现在经常说的“自动驾驶的数据库”。
李飞飞表示,阿里云要客观认识自己,既要认识到自己的长足,同时也要认识到自己的不足。比如,Oracle领导数据库市场40多年,在数据库内核上积累了自己的优势(比如查询优化),有非常明显的优势。另一方面,正因为它在传统商业数据库领域深耕多年,体量大、整个系统非常复杂,想向云转身没那么容易的,要经过非常大的代码修改和架构改造。相对而言,云计算厂商去做数据库,没有历史包袱,更加有利于在新的赛道上发挥出自己的技术优势。这也是PolarDB等云原生数据迅速崛起的背景。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。