今天 ,AWS在AWS re:Invent大会推出两款新一代自研芯片,用于通用云计算和高效AI训练,分别是Graviton4 和 Trainium2。
AWS使用基于Arm的Graviton系列处理器为客户提供高性能并降低成本,以处理Amazon Elastic Compute Cloud(EC2)中的各种云计算工作负载。据Amazon称,与当前的Graviton3这一代处理器相比,Graviton4的计算能力提高了30%,核心数量增加了50%,内存带宽增加了75%。
AWS计算和网络副总裁David Brown表示:“Graviton4标志着我们在短短五年内推出的第四代芯片,是我们为各种工作负载打造的最强大的、最节能的芯片。芯片支撑着每个客户工作负载,这是AWS创新的一个关键领域。”
Amazon自2018年以来一直在使用Graviton1构建自己的定制芯片,为A1 EC2实例提供动力。每一代Graviton都带来了更高的性能、效率和更低的成本。2021年,Brown曾表示,Graviton的上市为AWS生态系统带来了重大增长,因为客户看到工作负载立即就得到了改善。
截至目前,AWS在全球提供超过150种不同的、支持Graviton的Amazon EC2实例,并且已经部署了超过200万个Graviton处理器。
AWS最新的内存优化型Amazon EC2 R8g实例将支持Graviton4处理器,让客户能够大规模改进高性能数据库、内存缓存和大数据分析工作负载的运行。R8g实例将提供比当前R7g实例多3倍的大容量虚拟CPU和3倍的内存。Amazon表示,新的R8g实例目前已推出预览版,计划在未来几个月内全面上市。
Trainium2:专为云端AI训练设计的下一代芯片
随着当今生成式AI应用背后的AI基础模型和大型语言模型变得越来越大,它们需要处理大量数据集,意味着训练模型的时间和成本也在不断增加。那些最大的、最先进的模型可以扩展到数千亿到数万亿个数据点,可以生成文本、图像、音频、视频和软件代码。
今天,AWS发布了Trainium2,一款专门用于训练FM和LLM的高性能芯片,具有多达数万亿个参数,训练性能是第一代芯片的4倍,内存容量是其3倍。AWS还表示,该芯片的能效比第一代提高了2倍。
Brown表示:“随着人们对生成式AI兴趣日益高涨,Trainium2将帮助客户以更低的成本和更高的能源效率更快速地训练他们的机器学习模型。”
Trainium芯片充当了高性能人工智能和机器学习工作负载的深度学习算法AI加速器,还针对训练AI应用中使用的自然语言处理、计算机视觉和推荐模型进行了优化,例如文本摘要、代码生成、问答、图像和视频生成。
Trainium2将在新的Amazon EC2 Trn2实例中提供,其中单个实例包含16个Trainium2芯片。客户将能够在下一代EC2 UltraCluster中将这些实例扩展到多达10000个Trianum2芯片,并与AWS Elastic Fabric Adapter的Pb级网络互连,能够提供高达65 exaflops的计算能力。Amazon表示,按照这样的规模,客户将能够在一周内而不是几个月培训多达3000亿个参数的大型语言模型。
好文章,需要你的鼓励
Xbox 部门推出了名为 Muse 的生成式 AI 模型,旨在为游戏创造视觉效果和玩法。这一举措反映了微软全面拥抱 AI 技术的战略,尽管游戏开发者对 AI 持谨慎态度。Muse 不仅可能提高游戏开发效率,还有望实现老游戏的现代化改造,但其实际效果和对行业的影响仍有待观察。
Sonar收购AutoCodeRover,旨在通过自主AI代理增强其代码质量工具。这项收购将使Sonar客户能够自动化调试和问题修复等任务,让开发者将更多时间用于改进应用程序而非修复bug。AutoCodeRover的AI代理能够自主修复有问题的代码,将与Sonar的工具集成,提高开发效率并降低成本。
人工智能正在推动数据中心的变革。为满足 AI workload 的需求,数据中心面临前所未有的电力消耗增长、散热压力和设备重量挑战。应对这些挑战需要创新的解决方案,包括 AI 专用硬件、可再生能源、液冷技术等。同时,数据中心还需平衡监管压力和社区关切。未来数据中心的发展将决定 AI 技术能否实现其变革性潜力。