2020年“双十一”已经落幕。数据显示,11 月 1 日至 11 日2020 天猫“双十一”订单创建峰值达 58.3 万笔/秒,11月1日0点-11日零时30分,天猫成交额破3723亿元,双双再创新高。阿里天猫系统再次通过这场一年一度的“大考”。
在每年的“大考”中,是否能平稳地应对订单高峰时的流量,系统不崩溃、用户体验不下降,是通过“考试”的关键,为此,阿里的技术人员一直持续不断地研发技术、打磨产品,云原生内存数据库Tair就是其中最关键的产品之一。从2009年Tair首次应用在淘宝核心业务系统,至今已经连续11年Tair为阿里“双十一”提供了核心的在线访问加速能力,承受住了最高每秒15亿次的调用,是“双十一”不折不扣的一大功臣。
今年年初,这个在阿里集团内部服务多年,历经天猫“双十一”、优酷春晚、菜鸟、高德等业务场景磨练的产品被阿里云正式对外推出。尽管在内存数据库市场Tair才入场,但经过阿里连续11年“双十一”历练的Tair注定与众不同,其云原生加持下的存储一体、结合英特尔傲腾提供的持久化能力等等,使得Tair一出场就成为业界的焦点。
数据处理新趋势:实时、海量、低成本
今天的我们已经进入一个大数据时代,数据规模一直在快速增长。来自研究机构的数据显示,到2025年数据规模将是今年的4倍。与此同时,实时数据的处理占比会越来越高。据预测,到2022年50%以上的业务将需要采用实时处理数据方法来支撑业务的在线化运营。另外,新增数据中非结构性数据占比会大大提升,占比将会高达80%以上,同比增速超过50%。
应对这些以非结构化数据为主、实时在线的数据处理需求,传统数据库明显力不从心,而内存数据库成为越来越多人的选择。近几年,随着内存价格持续走低,以Redis、Memcache为代表的内存数据库迅速普及。据Verified Market Research在2020年发布的市场研究报告显示,全球内存数据库市场将以19.65%的复合年增长率增长。
不过,市场上现存的这些内存数据并没有充分满足企业的需求,主要体现在以下方面:
首先是成本,在所有存储介质中内存是最贵的,内存的成本是用户选择内存数据库首要的考虑条件,昂贵的内存成本也限制了内存数据库的普及。
其次是弹性。市场上现在的内存数据库产品普遍弹性不足,只能基于事先设好的参数值扩容,而无法根据业务的波峰、波谷的变化实时调整内存大小。
第三,计算能力不够丰富。大多数内存数据库数据模型以KV或者关系型为主,在非结构化数据占比将达到80%以上的今天,人们希望其能提供更加丰富的计算能力,如向量分析、向量处理、图数据类型临近点分析等处理。
第四是企业级的能力。内存数据库除了能提供传统缓存提供的数据访问加速能力之外,还希望能够提供持久化、智能分层存储以及热点打散等功能,这些都是很多企业级应用需要的关键能力。
值得高兴的是,随着技术的不断进步,特别是云计算以及新一代存储技术的出现,内存数据库面临的这些挑战正在逐步得到解决,新一代的内存数据库也应运而生,阿里云推出的云原生内存数据库Tair正是这样的一个产品。
“内存数据库正进入了新的阶段,云原生,持久化,融合计算是三大特征。” 阿里巴巴集团副总裁、阿里云智能数据库产品事业部总经理、高级研究员李飞飞表示。
阿里巴巴集团副总裁、阿里云智能数据库产品事业部总经理、高级研究员李飞飞
云原生加持的内存数据库Tair
阿里云推出的云原生内存数据库Tair是阿里内部自研的一个完全兼容Redis协议的 KVS 缓存系统。Tair诞生于2009年,最早应用于淘宝核心业务系统,随后逐渐进入阿里众多核心业务系统,经过多年持续不断的打磨、完善和改进,如今已经演进到Tair 3.0。Tair也被阿里云称为Redis 企业版。部分原因在于其最早的设计思路来自Redis,很多功能设计也参考了Redis,但更为重要的原因是,它完全兼容Redis的数据结构和接口API,原来采用Redis的应用可以无缝迁移到Tair。
当然,作为新一代内存数据库的代表,Tair已经超过了Redis,实现了从缓存到一个真正内存数据库的角色转变,越来越多核心应用除了使用Tair的缓存模式之外,也使用Tair作为数据的持久化存储方案。
在阿里云Tair实现从数据缓存到真正的内存数据库的角色转变过程中,存储技术的进步发挥了重要作用,特别是英特尔傲腾技术。英特尔的傲腾是近几年来存储介质的一次重大突破,傲腾数据中心级持久内存(AEP)通过3DXpoint技术实现了存储介质在性能和成本上平衡,既提供了接近DRAM的访问速度,同时还具有非易失性存储的能力。
基于傲腾数据中心级持久内存,Tair通过软硬结合实现了成本、性能和功能上的突破。目前,针对用户对访问延时、持久化、整体成本这三个核心的不同需求,基于DRAM、AEP和ESSD云盘存储介质,Tair推出了多种不同形态的产品,通过为用户提供更强的性能、更多的数据结构和更灵活的存储方式,来满足不同场景下的业务需求。
软硬一体实现突破
“结合傲腾AEP的特性,通过软硬件的融合Tair在成本、弹性、计算和企业级能力上都实现了突破。”李飞飞在接受记者采访时表示。
首先在成本上,得益于新技术的应用使得TCO有明显下降。比如,Tair的持久内存型形态单实例成本对比Redis社区版最高可降低30%,而容量存储型形态的单实例成本对比Redis社区版最高可降低85%。而且,数据持久化不依赖传统磁盘,保证每个操作持久化的同时提供近乎Redis社区版的吞吐和延时,极大提升业务数据可靠性。
其次,在弹性上,Tair通过计算和存储的解耦以及存储的池化,实现了无损的缩扩容,用户可以根据业务访问的波峰波谷动态、弹性地用一个池化的内存池提供无缝弹性,这就避免了用户为峰值“买单”,帮助用户节约的成本。
“如果在没有存储和计算解耦,没有存储池化能力,内存的容量一定要按照业务峰值进行匹配,否则在峰值的时候就会出现内存被击穿,数据库被涌来的请求冲垮。而在传统架构下,内存数据库必须按照峰值容量部署,因此使用成本一定高。”李飞飞解释说。
第三,计算模型上,Tair则提供了非常丰富的功能,能支持图计算、文本计算、图片计算等等。
最后,也是非常关键的企业级能力,这也是Tair的一大优势所在。Tair提供了全分布式的能力、数据闪回的能力、数据洞察的能力、热点打散的能力,以及智能数据分层存储能力。
比如,Tair可以跨多个可用区(AZ)部署和容灾,不同AZ的数据可以自动实时同步,并且多点进行读取,从而实现对就近内存数据的访问。Tair的这种分布式能力对在线教育、娱乐、游戏、出海业务等业务非常关键,南瓜电影就使用了阿里云内存数据库Tair的企业级功能,实现了数据多地域同步,为3000万终端用户带去了更极致的体验。
另外,热点打散也是Tair的一项非常关键的能力。在视频直播可能会有突然爆发的情况,而这些很难预测也无法做足预案,如果热点来了应对不好很容易把缓存击穿,通过Tair实时热点打散能力就可以从容应对这种突发的状况。
云计算是最重要的推手
回顾这些年数据库进步的演进,李飞飞表示,一个明显的趋势是大数据与数据库正在融合,其边界变得越来越模糊,同时离线、在线边界也变得越来越模糊,因为人们希望将数据处理一体化,数据处理实时在线化。而这背后最大的推手就是云计算。
李飞飞解释说,云计算本质是资源池化。“通过资源的池化、存储与计算分离、计算资源隔离这些云计算的能力,同时结合如傲腾这样的最新的硬件技术,再和分布式数据库技术融合起来,我们研发出Tair这样的新一代数据库系统。”李飞飞说。
的确,云原生数据库成为行业发展趋势。Gartner在去年的这份名为《The Future of the Database Management System (DBMS) Market Is Cloud》的报告中就明确提出,传统的自己部署数据库的方式已经过时。云是未来,所有组织,无论大小,都将越来越多地使用云数据库。而阿里云云数据库产品的推出也正是顺应了这一趋势。
值得一提的是,阿里云在云计算方面的整体技术实力为阿里云数据库产品性能提供了重要支持,确保其有着更好的性能表现。神龙架构就是一个很好的例子。神龙架构是阿里云为提升云平台整体性能而研发的新一代计算平台,目前已经发布了第三代神龙架构。为了神龙架构,阿里云研发了专用的芯片、定制的专用主板,开发了专用的MOC卡,甚至开发了整套配套的软件——从BIOS到应用层支撑软件,再到整体调度软件等一整套复杂的系统。其最终结果实现了全面支持ECS虚拟机、裸金属、云原生容器等,在IOPS、PPS等方面提升5倍性能,用户能在云上获得物理机100%的计算能力。
“这种基础架构级的改进可以为上层的软件提供直接的性能提升,很少或者几乎不用做任何改动。”阿里云智能基础产品事业部技术战略总监陈旭在接受记者采访时表示。
正是凭借阿里云自身在云计算方面的深厚技术,以及阿里集团独一无二的“双十一”这个独特的练兵场,使得阿里云在数据库市场一年一个台阶,逐渐从一个市场的参与者变成了市场的领先者。
在今年11月份Gartner公布的2020年度全球数据库魔力象限评估结果,阿里云首次挺进全球数据库第一阵营——领导者象限,这也是中国数据库40年来首次进入全球顶级数据库行列,标志着国产数据库正式进入一线行业。另外,根据IDC的数据,在公有云市场阿里云在云数据库赛道上营收已经全球第三,而就整个数据库市场而言,在中国市场份额阿里云也位居榜首。
展望未来,李飞飞表示,Tair会持续在成本、弹性、计算、企业级方面发力,重点云原生、软硬件技术结合且数据智能分布、数据存储和计算一体化等核心能力。
“我们对云原生内存数据库接下来的布局是,通过池化的内存存储来提供多种计算模型和计算能力的支撑,实现存储计算在内存层面真正的一体化。”李飞飞说。
好文章,需要你的鼓励
第一资本就凭借着对数据资源的差异化运用成功脱颖而出。”这样的基础不仅彻底改变了该公司进军银行业的方式,还建立起良性循环,使得更好的数据支撑起更强大的分析能力,进而改善客户交互并产生出更多数据。
Fortinet有着三大重要组成部分,“安全组网”、“unified SASE(统一SASE)”、“AI赋能安全组网”过去三年同比平均增长了14.6%、21.7%、22.3%,远超行业同期的9%、19%、14%的增长率。
近日Max Chan和我们分享了Avnet公司在现代数字领域得到的经验教训,从优化云支出到利用AI提高客户满意度。
金融服务公司Discover Financial Services采用容器化方法来实现其工作负载的敏捷性和灵活性,同时探索生成式AI的长期优势。