今年,瘦身成功的亚马逊云科技高级副总裁Peter DeSantis,用生成式AI亲手创作了几张re:Invent《周一晚间直播》的配图,来可视化他的演讲。
这也为整场活动定下了基调,其实亚马逊云科技在底层创新上一直有着悠久的历史,从芯片设计到计算架构,再到AI加速,每一步都在推动技术边界的发展。
亚马逊云科技高级副总裁Peter DeSantis
自研芯片的技术版图
亚马逊云科技已经拥有超过十年“自研芯片”的历程,已推出的四大自研芯片产品组合包括:六代Nitro系统、四代Graviton、两代Trainium和Inferentia。
亚马逊云科技在2018年re:Invent大会上发布了基于ARM架构的第一代Amazon Graviton。此后,Graviton芯片不断针对现实的工作负载进行性能优化:第二代专注于横向扩展性能,第三代聚焦高计算需求的专业工作负载,而第四代则成为专为云计算打造的性能最强芯片。
Peter DeSantis指出,过去两年间,新投产的CPU算力中有超过50%运行在Amazon Graviton上。
与此同时,AWS Nitro System重新定义了服务器架构,从根本上革新了云的构建和保护云的方式。AWS也将AWS Nitro System的安全性拓展到Amazon Graviton4,通过两者的结合,打造出亚马逊云科技迄今为止最安全的计算产品之一。
AI加速器的硬核进化
Trainium加速器不属于传统的CPU或GPU,其采用了脉动阵列架构,是专门针对AI工作负载优化过的硬件架构。
“人工智能工作负载不是横向扩展型的工作负载,而是扩张类型的工作负载。”Peter DeSantis说道。亚马逊云科技采用“扩张”的方式,专注于提高单个系统的容量,而不是采用“横向扩展”的方式,构建多个相同的系统,在多台机器上分配工作负载。
在传统CPU和GPU中,每个计算步骤通常需要从内存读取数据、执行计算后,再将结果写回内存。这种频繁的内存操作会导致性能瓶颈,尤其是在需要大量带宽的AI任务中。
脉动阵列设计目的是高效处理大规模的矩阵或张量运算,脉动阵列通过将计算结果直接从一个处理单元传递到下一个处理单元,减少了对内存的访问需求,从而降低了内存带宽的压力。
Trainium2 Server也得益于此,其是目前亚马逊云科技最强大的机器学习服务器,其扩张的速度也超过了曾经所有的服务器。现场还第一次展示了AWS Trainium2 UltraServer,其设置2个机架、4个服务器和64个Trainium加速器,以超高速的NeuronLink连接在一起。AWS Trainium2 UltraServer提供相比当前EC2 AI服务器多达5倍的计算容量和10倍的内存,算力峰值扩展到83.2PFLOPS。
同时推出全新Trainium3,其采用3nm制程的芯片,与上代Trainium2相比,计算能力增加2倍,能源效率提升40%。Trainium3专为满足下一代生成式AI工作负载的高性能需求而设计,有助客户更快地建立更大的模型,由Trainium3驱动的UltraServers预计将比 AWS Trainium2 UltraServer的效能高出四倍。
亚马逊云科技同时也注意到推理性能优化的关键性需求,宣布了Latency-optimized inference option for Amazon Bedrock,使各种模型可以获得最佳的推理性能。借助这一优化,Claude 3.5 Haiku在亚马逊云科技上的运行速度比其他平台快了60%。
AI生态的未来棋局
Anthropic 从成立那天起,就靠着前沿的 AI 技术圈足了眼球。11 月 23 日,亚马逊再度追加40亿美元投资,使总投资推高到80亿。这可不只是砸钱,而是在下一盘关于AI未来的大棋。
Anthropic快速发展的背后,离不开亚马逊云科技的强大技术支撑。其Amazon Trainium和 Amazon Inferentia芯片,不仅显著提升了Claude模型的训练和推理性能,还显著降低了成本。11月4日,Claude 3.5 Haiku也在Amazon Bedrock中正式可用。
Anthropic还在《周一晚间直播》中宣布了Project Rainier项目,计划在数百个Amazon Trainium 集群上进行训练,构建出更快的、更可扩展的AI,以支持Anthropic的未来模型开发。
亚马逊云科技还有很多底层基础架构的创新,从性能提升到成本降低,每一项突破都在重新定义AI的技术边界。
好文章,需要你的鼓励
Mirantis 推出开源平台 k0rdent,旨在简化企业 Kubernetes 集群管理。该平台提供统一界面,支持创建内部开发者平台,可管理云端、本地和边缘的 Kubernetes 集群。k0rdent 由集群管理器、状态管理器和可观察性工具三大组件构成,具有可扩展性,支持多种基础设施。
DevAI Solutions Inc. 获得 600 万美元种子轮融资,由 Emergence Capital 领投。该公司由前思科高管创立,开发了一个名为网络智能引擎的软件平台,利用 AI 代理自动化 IT 管理任务,声称可将某些 IT 工单解决时间缩短 40% 至 70%。DevAI 计划利用这笔资金支持产品开发并扩大用户群。
医疗专业人士对人工智能在制药行业的潜力持乐观态度。他们认为AI有望重塑研究、治疗和临床护理,提高诊断准确性,加速药物开发。但同时也强调了确保AI技术符合伦理、有效实施并为患者带来实际价值的重要性。医疗专业人士的观点对于AI技术在医疗领域的成功应用至关重要。
AWS 第四季度收入同比增长 19%,达到 288 亿美元,全年收入增长 19% 至 1076 亿美元。公司将增长归因于企业扩大公共云使用和 AI 需求激增。AWS 预计将在未来 12 个月投资约 1000 亿美元用于基础设施建设,以支持不断增长的云计算和 AI 工作负载需求。