一边是全球最大规模的流量洪峰,一边是核心系统100%上云,双11的这一天,阿里云扛住了。
在过去一年间,阿里巴巴将部署在线下数据中心的上万个应用、数以十万计的服务器、数百万容器向公共云平台迁移,而消费者和商家对这个“飞机换引擎”的过程毫无感知。今年的订单创建峰值更是高达54.4万笔/秒,是2009年第一次双11的1360倍。
这背后每一个技术基础设施都是一项世界级的超级工程,包括飞天云操作系统、自研神龙服务器、云数据库、实时计算、AI技术等,都是核心系统100%上云背后的基石。
“我们在零点把大部分计算机资源分配给交易等应用,过了1点之后,我们把数据分配给数据处理系统。”张建锋透露,“我前十分钟,基本上消费者没有感受到任何抖动,大家购物非常顺畅。”
为了保证消费者顺畅的买买买,阿里巴巴做了这四件事。
首先是自主研发核心虚拟化系统,用来解决困扰云计算行业的虚拟化性能损耗问题。
一般的核心电商系统内,都有大量的低延迟系统,以典型的内存型数据库场景为例,业务单次请求是在微秒级时间内完成的。如果性能不达标,消费者在天猫淘宝上买买买的时候就会遇上各种卡顿等问题。
而传统的的虚拟化技术,为了处理此类请求,会引入微秒级的额外开销,最终使得业务端到端延迟成倍增加,不能满足业务需求。
所以要上云,第一个要解决的就是如何保证性能。在这个背景下,阿里云神龙云服务器横空出世。
神龙是阿里云自主研发的新一代IaaS核心计算架构,其创新之处来与,涵盖自研“X-Dragon虚拟化芯片”、“X-Dragon Hypervisor系统软件”以及“X-Dragon服务器硬件架构”,其创新之处在于实现了软硬件的深度结合,通过专用芯片来抵消虚拟化技术带来的性能损耗问题,完全发挥处理器和内存的性能。
今年双11采用的基于神龙架构的弹性裸金属服务器,成功跨越了性能损耗这座高山,其CPU和内存都做到了性能零损耗,并通过芯片级加速的弹性网卡和云盘存储,成为云端容器最佳载体,顺利承载双十一流量洪峰。与同配置物理机相比,不仅业务系统性能提升20%,而且抗高负载压力表现更好,整个业务性能非常平稳和线性,让消费者双11购买体验“如丝般顺滑”。
更为重要的一点是,一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的。我们神龙服务器压力越大,输出也是非常线性的,这是非常难做到的。
第二件搞定的事是数据库。今年双11背后重点有两个数据库,一个是自研的OceanBase,就是此前在TPC-C测试里面拿下了全球第一的技术明星,在双11当天的每秒处理峰值达到了破纪录的6100万次。
另一款也是自研的云原生数据库PolarDB,采用了存储计算分离、软硬一体化等创新设计,满足大规模业务场景上云需求。在第六届世界互联网大会上,POLARDB当选了世界互联网领先科技成果。在双11的交易中,OceanBase和PolarDB每秒处理峰值都远远超越传统Oracle数据库。
双11是一次大规模的全社会协作,要想让业务流、信息流和资金流做到顺畅、及时和精准地在整个双11系统中完成同步,数据库是非常关键的技术环节。
除了OceanBase、PolarDB外,RDS、AnalyticDB、TSDB等全线数据库产品参与双11,支撑阿里巴巴内外部客户顺利通过大考,保障了数亿消费者的购物体验。
第三件事是计算存储分离,今天的阿里巴巴存储是有一个地方专门存数据的,由于数据是从远端存取的,所以存储可以非常方便扩容。
基于计算存储分离设计架构,存储可以在不同场景下,发挥着巨大的作用。
例如,在AI 语音购物和商品应用管理场景方面,阿里云文件存储NAS 作为高性能共享文件系统,提供单个实例数万QPS 和毫秒级延时处理能力,平稳应对日常50 倍流量,支撑业务系统顺利扛过双十一洪峰。
而在海量图片和直播视频处理场景方面,作为非结构化数据的统一存储系统,阿里云对象存储OSS存储了数万亿商品详情、主图、视频、音频、文档等各种多媒体文件,总容量达数EB级。
还有FPGA图片处理服务,以5倍的单机性能、1/10的处理延迟,为双11提供更稳定、更高效的图片处理。
最后一件,也是提升最大的一件事:RDMA网络。在阿里巴巴数十个数据中心里,都支持RDMA网络技术,延时可显著降低90%,最大程度满足计算要求。
RDMA是目前业内最受欢迎的高性能网络技术,能大大节约数据传输时间,被认为是提高人工智能、超算等效率的关键。数据显示,在未使用RDMA网络时,语音识别训练每次迭代任务时长为650ms至700ms,其中通信时延就占400ms。
从2016年开始,阿里巴巴就投入大量资源,用以改造RDMA、提高传输性能。自主设计网卡底层满足大规模应用的网络,并结合阿里自研交换机实现性能最大化,最终建成全球最大规模数据中心内的“高速网”,使得集群极大地突破了传输速度瓶颈。
目前,阿里云在全球19个地域拥有56个可用区,网络总带宽已达到PB 级别超大规模,同时推出了基于硅光技术的400G DR4光模块,以支持其下一代数据中心网络的建设。
正是这样的网络基础设施,让计算存储分离、零损耗的神龙、破纪录的数据库成为双11最耀眼的明星。
更难能可贵的是,从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA网络,全部是阿里巴巴自研的。
“我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到上面的核心应用平台,四位一体,才使得阿里整个经济体所有核心应用都能够跑在上面,这是这次双11跟往年最大不一样的地方。”张建锋表示。
好文章,需要你的鼓励
WordPress实验性AI开发工具Telex在9月发布几个月后已投入实际使用。在"State of the Word"年度活动中,WordPress联合创始人展示了Telex的多个应用案例,包括创建价格比较工具、价格计算器和实时营业时间显示等功能。该工具能够生成Gutenberg模块,让开发者在几秒内完成过去需要数千美元定制开发的功能。同时WordPress还推出了Abilities API等AI架构开发。
印度学者在卫星图像识别领域取得突破,设计出无需预训练的神经网络架构,在EuroSAT数据集上达到97.23%准确率。通过三轮迭代优化,研究者发现卫星图像需要平衡空间和光谱两种特征,创新性地开发了可学习融合参数的双路径注意力机制。该方法证明了专用架构设计在特定领域的巨大潜力,为无法获得大规模预训练数据的应用场景提供了有效解决方案。
英国国家网络安全中心与BT合作推出的Share and Defend服务成功拦截了近十亿次早期网络攻击和用户访问危险网站的尝试。该服务整合多方威胁情报数据,通过互联网服务商的DNS平台实时过滤恶意网站,大规模阻断钓鱼和虚假购物网站。目前已有TalkTalk、沃达丰等多家合作伙伴加入,政府计划在2026年1月发布国家网络行动计划以进一步提升英国网络安全防护能力。
UC伯克利研究团队开发了ECHO框架,通过分析社交媒体上真实用户对GPT-4o图像生成的使用反馈,构建了更贴近实际需求的AI评测体系。该框架收集了超过31000个用户提示词,发现传统评测无法覆盖的复杂任务需求,并识别出用户关心的色彩偏移、身份保持等具体问题,为AI模型评估提供了全新的用户导向思路。