比登天还难!双11核心系统100%上云 阿里巴巴做了这四件事

一边是全球最大规模的流量洪峰,一边是核心系统100%上云,双11的这一天,阿里云扛住了。

一边是全球最大规模的流量洪峰,一边是核心系统100%上云,双11的这一天,阿里云扛住了。

在过去一年间,阿里巴巴将部署在线下数据中心的上万个应用、数以十万计的服务器、数百万容器向公共云平台迁移,而消费者和商家对这个“飞机换引擎”的过程毫无感知。今年的订单创建峰值更是高达54.4万笔/秒,是2009年第一次双11的1360倍。 

 比登天还难!双11核心系统100%上云  阿里巴巴做了这四件事

这背后每一个技术基础设施都是一项世界级的超级工程,包括飞天云操作系统、自研神龙服务器、云数据库、实时计算、AI技术等,都是核心系统100%上云背后的基石。

“我们在零点把大部分计算机资源分配给交易等应用,过了1点之后,我们把数据分配给数据处理系统。”张建锋透露,“我前十分钟,基本上消费者没有感受到任何抖动,大家购物非常顺畅。”

 比登天还难!双11核心系统100%上云  阿里巴巴做了这四件事

为了保证消费者顺畅的买买买,阿里巴巴做了这四件事。

首先是自主研发核心虚拟化系统,用来解决困扰云计算行业的虚拟化性能损耗问题。

一般的核心电商系统内,都有大量的低延迟系统,以典型的内存型数据库场景为例,业务单次请求是在微秒级时间内完成的。如果性能不达标,消费者在天猫淘宝上买买买的时候就会遇上各种卡顿等问题。

而传统的的虚拟化技术,为了处理此类请求,会引入微秒级的额外开销,最终使得业务端到端延迟成倍增加,不能满足业务需求。

所以要上云,第一个要解决的就是如何保证性能。在这个背景下,阿里云神龙云服务器横空出世。

神龙是阿里云自主研发的新一代IaaS核心计算架构,其创新之处来与,涵盖自研“X-Dragon虚拟化芯片”、“X-Dragon Hypervisor系统软件”以及“X-Dragon服务器硬件架构”,其创新之处在于实现了软硬件的深度结合,通过专用芯片来抵消虚拟化技术带来的性能损耗问题,完全发挥处理器和内存的性能。

今年双11采用的基于神龙架构的弹性裸金属服务器,成功跨越了性能损耗这座高山,其CPU和内存都做到了性能零损耗,并通过芯片级加速的弹性网卡和云盘存储,成为云端容器最佳载体,顺利承载双十一流量洪峰。与同配置物理机相比,不仅业务系统性能提升20%,而且抗高负载压力表现更好,整个业务性能非常平稳和线性,让消费者双11购买体验“如丝般顺滑”。

更为重要的一点是,一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的。我们神龙服务器压力越大,输出也是非常线性的,这是非常难做到的。

第二件搞定的事是数据库。今年双11背后重点有两个数据库,一个是自研的OceanBase,就是此前在TPC-C测试里面拿下了全球第一的技术明星,在双11当天的每秒处理峰值达到了破纪录的6100万次。

另一款也是自研的云原生数据库PolarDB,采用了存储计算分离、软硬一体化等创新设计,满足大规模业务场景上云需求。在第六届世界互联网大会上,POLARDB当选了世界互联网领先科技成果。在双11的交易中,OceanBase和PolarDB每秒处理峰值都远远超越传统Oracle数据库。

双11是一次大规模的全社会协作,要想让业务流、信息流和资金流做到顺畅、及时和精准地在整个双11系统中完成同步,数据库是非常关键的技术环节。

除了OceanBase、PolarDB外,RDS、AnalyticDB、TSDB等全线数据库产品参与双11,支撑阿里巴巴内外部客户顺利通过大考,保障了数亿消费者的购物体验。

第三件事是计算存储分离,今天的阿里巴巴存储是有一个地方专门存数据的,由于数据是从远端存取的,所以存储可以非常方便扩容。

基于计算存储分离设计架构,存储可以在不同场景下,发挥着巨大的作用。

例如,在AI 语音购物和商品应用管理场景方面,阿里云文件存储NAS 作为高性能共享文件系统,提供单个实例数万QPS 和毫秒级延时处理能力,平稳应对日常50 倍流量,支撑业务系统顺利扛过双十一洪峰。

而在海量图片和直播视频处理场景方面,作为非结构化数据的统一存储系统,阿里云对象存储OSS存储了数万亿商品详情、主图、视频、音频、文档等各种多媒体文件,总容量达数EB级。

还有FPGA图片处理服务,以5倍的单机性能、1/10的处理延迟,为双11提供更稳定、更高效的图片处理。

最后一件,也是提升最大的一件事:RDMA网络。在阿里巴巴数十个数据中心里,都支持RDMA网络技术,延时可显著降低90%,最大程度满足计算要求。

RDMA是目前业内最受欢迎的高性能网络技术,能大大节约数据传输时间,被认为是提高人工智能、超算等效率的关键。数据显示,在未使用RDMA网络时,语音识别训练每次迭代任务时长为650ms至700ms,其中通信时延就占400ms。

从2016年开始,阿里巴巴就投入大量资源,用以改造RDMA、提高传输性能。自主设计网卡底层满足大规模应用的网络,并结合阿里自研交换机实现性能最大化,最终建成全球最大规模数据中心内的“高速网”,使得集群极大地突破了传输速度瓶颈。

目前,阿里云在全球19个地域拥有56个可用区,网络总带宽已达到PB 级别超大规模,同时推出了基于硅光技术的400G DR4光模块,以支持其下一代数据中心网络的建设。

正是这样的网络基础设施,让计算存储分离、零损耗的神龙、破纪录的数据库成为双11最耀眼的明星。

更难能可贵的是,从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA网络,全部是阿里巴巴自研的。

“我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到上面的核心应用平台,四位一体,才使得阿里整个经济体所有核心应用都能够跑在上面,这是这次双11跟往年最大不一样的地方。”张建锋表示。

 

来源:阿里云

0赞

好文章,需要你的鼓励

2019

11/13

18:31

分享

点赞

邮件订阅
白皮书