比登天还难！双11核心系统100%上云阿里巴巴做了这四件事

一边是全球最大规模的流量洪峰，一边是核心系统100%上云，双11的这一天，阿里云扛住了。

在过去一年间，阿里巴巴将部署在线下数据中心的上万个应用、数以十万计的服务器、数百万容器向公共云平台迁移，而消费者和商家对这个“飞机换引擎”的过程毫无感知。今年的订单创建峰值更是高达54.4万笔/秒，是2009年第一次双11的1360倍。

这背后每一个技术基础设施都是一项世界级的超级工程，包括飞天云操作系统、自研神龙服务器、云数据库、实时计算、AI技术等，都是核心系统100%上云背后的基石。

“我们在零点把大部分计算机资源分配给交易等应用，过了1点之后，我们把数据分配给数据处理系统。”张建锋透露，“我前十分钟，基本上消费者没有感受到任何抖动，大家购物非常顺畅。”

为了保证消费者顺畅的买买买，阿里巴巴做了这四件事。

首先是自主研发核心虚拟化系统，用来解决困扰云计算行业的虚拟化性能损耗问题。

一般的核心电商系统内，都有大量的低延迟系统，以典型的内存型数据库场景为例，业务单次请求是在微秒级时间内完成的。如果性能不达标，消费者在天猫淘宝上买买买的时候就会遇上各种卡顿等问题。

而传统的的虚拟化技术，为了处理此类请求，会引入微秒级的额外开销，最终使得业务端到端延迟成倍增加，不能满足业务需求。

所以要上云，第一个要解决的就是如何保证性能。在这个背景下，阿里云神龙云服务器横空出世。

神龙是阿里云自主研发的新一代IaaS核心计算架构，其创新之处来与，涵盖自研“X-Dragon虚拟化芯片”、“X-Dragon Hypervisor系统软件”以及“X-Dragon服务器硬件架构”，其创新之处在于实现了软硬件的深度结合，通过专用芯片来抵消虚拟化技术带来的性能损耗问题，完全发挥处理器和内存的性能。

今年双11采用的基于神龙架构的弹性裸金属服务器，成功跨越了性能损耗这座高山，其CPU和内存都做到了性能零损耗，并通过芯片级加速的弹性网卡和云盘存储，成为云端容器最佳载体，顺利承载双十一流量洪峰。与同配置物理机相比，不仅业务系统性能提升20%，而且抗高负载压力表现更好，整个业务性能非常平稳和线性，让消费者双11购买体验“如丝般顺滑”。

更为重要的一点是，一般的服务器随着压力增长，最终负载能力会慢慢下降，它不是线性的。我们神龙服务器压力越大，输出也是非常线性的，这是非常难做到的。

第二件搞定的事是数据库。今年双11背后重点有两个数据库，一个是自研的OceanBase，就是此前在TPC-C测试里面拿下了全球第一的技术明星，在双11当天的每秒处理峰值达到了破纪录的6100万次。

另一款也是自研的云原生数据库PolarDB，采用了存储计算分离、软硬一体化等创新设计，满足大规模业务场景上云需求。在第六届世界互联网大会上，POLARDB当选了世界互联网领先科技成果。在双11的交易中，OceanBase和PolarDB每秒处理峰值都远远超越传统Oracle数据库。

双11是一次大规模的全社会协作，要想让业务流、信息流和资金流做到顺畅、及时和精准地在整个双11系统中完成同步，数据库是非常关键的技术环节。

除了OceanBase、PolarDB外，RDS、AnalyticDB、TSDB等全线数据库产品参与双11，支撑阿里巴巴内外部客户顺利通过大考，保障了数亿消费者的购物体验。

第三件事是计算存储分离，今天的阿里巴巴存储是有一个地方专门存数据的，由于数据是从远端存取的，所以存储可以非常方便扩容。

基于计算存储分离设计架构，存储可以在不同场景下，发挥着巨大的作用。

例如，在AI 语音购物和商品应用管理场景方面，阿里云文件存储NAS 作为高性能共享文件系统，提供单个实例数万QPS 和毫秒级延时处理能力，平稳应对日常50 倍流量，支撑业务系统顺利扛过双十一洪峰。

而在海量图片和直播视频处理场景方面，作为非结构化数据的统一存储系统，阿里云对象存储OSS存储了数万亿商品详情、主图、视频、音频、文档等各种多媒体文件，总容量达数EB级。

还有FPGA图片处理服务，以5倍的单机性能、1/10的处理延迟，为双11提供更稳定、更高效的图片处理。

最后一件，也是提升最大的一件事：RDMA网络。在阿里巴巴数十个数据中心里，都支持RDMA网络技术，延时可显著降低90%，最大程度满足计算要求。

RDMA是目前业内最受欢迎的高性能网络技术，能大大节约数据传输时间，被认为是提高人工智能、超算等效率的关键。数据显示，在未使用RDMA网络时，语音识别训练每次迭代任务时长为650ms至700ms，其中通信时延就占400ms。

从2016年开始，阿里巴巴就投入大量资源，用以改造RDMA、提高传输性能。自主设计网卡底层满足大规模应用的网络，并结合阿里自研交换机实现性能最大化，最终建成全球最大规模数据中心内的“高速网”，使得集群极大地突破了传输速度瓶颈。

目前，阿里云在全球19个地域拥有56个可用区，网络总带宽已达到PB 级别超大规模，同时推出了基于硅光技术的400G DR4光模块，以支持其下一代数据中心网络的建设。

正是这样的网络基础设施，让计算存储分离、零损耗的神龙、破纪录的数据库成为双11最耀眼的明星。

更难能可贵的是，从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA网络，全部是阿里巴巴自研的。

“我们今天已经积累了非常丰富、非常强的能力，从硬件、数据库、云计算操作系统，到上面的核心应用平台，四位一体，才使得阿里整个经济体所有核心应用都能够跑在上面，这是这次双11跟往年最大不一样的地方。”张建锋表示。

来源：阿里云

阿里云

0赞

好文章，需要你的鼓励

比登天还难！双11核心系统100%上云 阿里巴巴做了这四件事

来源：阿里云

2019

11/13

18:31

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

阿里云李飞飞：将大模型，装进数据库里

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

“数字中华”的1666天

在“云端”找步调，典名科技的“十年长跑”纪实

“双11”八年回响，“创云”创造下一个“云命题”

摘得“双11”首单，鼎峯云跨越9年顶峰相见

驻云科技的十年激荡云之路：我们在找更高“价值洼地”

双11七年“会战”，小牛云跨越山海

通义发布最强代码模型Qwen2.5-Coder，登顶全球开源代码模型王座

阿里云引领的SaaS进化论，AI加持的云端爆发

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

比登天还难！双11核心系统100%上云阿里巴巴做了这四件事