ZD至顶网软件频道消息: 一年一度的双 11 购物节又要来了,剁手党们是否已经做好了准备?除了每年造就无数的败家买家外,双 11 也对各大各大电商平台的服务支撑提出了更高挑战。如何保证买家在购物过程中的流畅体验十分重要,再具性价比的商品在碰到网站无法响应时也会失去吸引力。因此,在各位买家开启买买买血拼模式的同时,各大电商平台也严阵以待,为一年中最繁忙的一天提供更强有力的 IT 技术保障。
我们注意到,虽然京东、淘宝、苏宁等大型电商已经凭借自身过硬的技术实力解决了高峰期间的 IT 压力,但是更多的中小型电商面对如此大的业务波动时还显得无能为力。在本次双 11 期间,我们将从技术角度出发,推出一系列专题文章,为大家解密电商平台的 IT 技术架构在面临秒杀抢购、消费者人物画像、商品推荐及搜索、业务高可用和多地访问、非结构化数据处理等业务场景的具体应对之策和技术实现。
今天的内容主要集中在秒杀及抢购背后的 IT 架构及实现。
电商秒杀活动的业务特点:
1、活动波峰波谷状态明显。电商通过秒杀活动为其经营产品造势,秒杀活动一般时间较为固定,活动通常需要经历产品发布、秒杀倒计时、到点秒杀、用户付款等一系列流程,在秒杀点前后服务器负载成峰值状态,服务器负载随着活动退却而减少。
2、秒杀通常涉及不止一个业务。电商秒杀活动,用户在等待秒杀的过程中也为电商网站带来了流量,当秒杀活动进行过程中,用户身份认证、支付业务、积分业务也会同时发生。
3、时间短、瞬时并发量高。秒杀活动是一个特别考验后台数据库、缓存服务的业务,对于数据库、缓存的性能要求特别严格。一旦后台数据服务没有跟上,秒杀活动将成为空谈。
秒杀背后的技术挑战:
1、突增的服务器及网络需求
双 11 这个万众狂欢的节日,对于电商员工来说,每个环节都面临前所未有的考验。
对 IT 运维部门来讲,需要备足充分的服务器和网络带宽资源来应付这一挑战。通常情况下,双 11 的服务器使用是平时的 3-5 倍,网络带宽是平时 2-4 倍,如何在短时间应付这些问题,如何让 IT 投资利用最大化,是摆在电商 IT 们面前一大难题。
2、业务高并发,服务负载重
我们通常衡量一个 Web 系统的吞吐率的指标是 QPS(Query Per Second,每秒处理请求数),解决每秒数万次的高并发场景,这个指标非常关键。
假设处理一个业务请求平均响应时间为 100 ms,同时,系统内有 20 台 Web 服务器,配置最大连接数为 500 个,Web 系统的理论峰值 QPS 为(理想化的计算方式):100000 (10万QPS)意味着 1 秒钟可以处理完 10 万的请求,而“秒杀”的那 5w/s 的秒杀似乎是“纸老虎”。
实际情况,在高并发的实际场景下,服务器处于高负载的状态,网络带宽被挤满,在这个时候平均响应时间会被大大增加。随着用户数量的增加,数据库连接进程增加,需要处理的上下文切换也越多,服务器造成负载压力越来越重。
3、业务耦合度高,引起系统“雪崩”
更可怕的问题是,当系统上某个应用因为延迟而变得不可用,用户的点击越频繁,恶性循环最终导致“雪崩”,因为其中一台服务器挂了,导致流量分散到其他正常工作的机器上,再导致正常的机器也挂,然后恶性循环,将整个系统拖垮。
电商秒杀活动应对策略
1、弹性资源伸缩,快速响应
不像传统 IT 模式,企业 IT 部门需要预先先采购大量的服务器及网络带宽资源,用户在青云QingCloud 上可即点即用服务器资源,随时满足电商用户的计算、网络、存储需求。通过灵活的公网 IP 策略,用户可以按照带宽和流量策略调整计费模式,随时扩缩资源情况。
除此之外,利用青云自动伸缩(AutoScaling)功能可以帮助用户基于资源的监控告警规则动态调节配置或集群规模,比如调整带宽上限,扩容关系型数据库的存储空间,增加或减少负载均衡器后端数量。
2、系统模块有效切分
为了防止系统应用过于耦合,我们一般建议用户在系统架构上做到有效切分,以防业务之间因为资源的争抢带来的相互影响:
3、充分利用缓存服务
缓存 (Cache) 可以提供高性能的缓存集群。一个集群包含多个缓存节点,支持主从、一主多从和多主多从架构,确保高可用。
另外,QingCloud 提供在线扩容,自动备份,监控告警和图形化操作等功能来管理集群;集群将运行于私有网络内,结合 QingCloud 提供的高性能硬盘,在保障高性能的同时兼顾您的数据安全。青云目前支持 Redis standalone、Redis cluster 和 Memcached 缓存。
电商秒杀活动架构部署
1、电商活动常见架构:
2、电商电商用户在青云上的架构展示:

3、重构经验
尽量将请求拦截在系统上游
传统秒杀系统之所以宕机,是因为服务请求都压倒了后端数据层,数据读写锁冲突严重,并发高响应慢,几乎所有请求都超时,流量虽大,下单成功的有效流量甚小。所以用户在做系统重构时候,根据业务特点首先在前端对数据进行请求拦截,以减少数据层面压力。
数据层扩展
构建数据库 Slave 集群,从单节点 MySQL 数据库转变为一主多从的数据库集群;创建内网 LB,对 Slave 集群做负载均衡,将数据库读请求分散到多个 Slave 节点上;根据功能做数据库读写分离。
读多写少的常用多使用缓存处理(推荐使用 Redis)
Redis 是一个 key-value 存储系统。和 Memcached 类似,它支持存储的 Value 类型相对更多,包括 String (字符串)、List(链表)、Set (集合)和 Zset (有序集合)。这些数据类型都支持 Push/Pop、Add/Remove 及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,Redis 支持各种不同方式的排序。
下面是 Redis 官方的 Bench-Mark 数据:
The test was done with 50 simultaneous clients performing 100000 requests.
The value SET and GET is a 256 bytes string.
(127.0.0.1).Results: about 110000 SETs per second, about 81000 GETs per second.
PS:更多详细数据见官方 Bench-Mark Page:http://code.google.com/p/redis/wiki/Benchmarks
总结
随着互联网正在高速发展,使用电子商务服务的用户越多,高并发的场景也变得越来越多。电商秒杀活动是个比较典型的互联网高并发场景。我们一直坚信,优秀的业务架构需要不断结合实际生产需求进行设计,好的业务架构会一直进化。
青云QingCloud 作为企业级云服务提供商,也会不断的为用户提供简洁高效的架构经验,以满足用户业务环境的复杂多变。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。