近日AWS表示,将推出一种新消费模式,主要针对那些希望为短期AI工作负载保留云托管GPU访问路径的企业。

Amazon Elastic Compute Cloud (EC2) Capacity Blocks for ML目前已经全面上市,这个模式让客户可以保留对位于Amazon EC2 UltraCluster中的“数百个”Nvidia最先进H100 Tensor Core GPU的访问权限,这些GPU主要面向高性能机器学习工作负载。
要访问EC2 Capacity Blocks,客户只需指定所需的集群大小、未来的开始日期和所需的持续时间,他们就能够确保有可靠地、可预测且不间断访问关键AI项目的GPU资源。
AWS表示,EC2 Capacity Blocks为客户解决了很多问题。如今,最强大的人工智能工作负载(例如训练大型语言模型)往往需要大量的计算能力,而Nvidia GPU被认为是用金钱可以买到的最好的硬件之一。然而,随着今年围绕生成式AI的热议,Nvidia的芯片突然出现供应短缺,没有足够的芯片供应给有需要的公司。
AWS表示,对于那些容量需求有波动的客户来说,GPU短缺尤其严重。由于他们不需要持续使用GPU,因此当他们确实需要这些资源时,可能会很难访问这些资源。为了解决这个问题,许多客户承诺购买较长时间的GPU容量,但在不使用时却将其闲置。EC2 Capacity Blocks为此类客户提供了一种更灵活的、更可预测的方式,可以在较短时间内采购GPU容量,从而为他们提供帮助。
AWS首席开发者布道师Channy Yun将EC2 Capacity Blocks预订比作预订酒店房间。他在一篇博客文章中解释说:“当你在预订酒店的时候,你可以指定想要入住房间的日期和入住时长,以及你想要的床的尺寸——例如大床或特大号床。EC2 Capacity Blocks预定也是如此,你可以选择需要GPU实例的日期、持续时间以及预留的大小(实例数量)。在预留开始日期,你就可以访问预留的EC2 Capacity Blocks并启动P5实例。”
AWS解释说,EC2 Capacity Blocks部署在EC2 UltraClusters中,并与Elastic Fabric Adapter Pt级网络互连,以确保低延迟和高吞吐量连接。正因为如此,它可以扩展到数百个GPU。客户可以提前八周预订1到64个实例的GPU集群,时间为1到14天。AWS表示,这种模式非常适合AI模型的训练和微调、短期实验运行、以及应对预期的需求激增例如推出新产品的时候。
AWS公司计算和网络副总裁David Brown表示:“借助Amazon EC2 Capacity Blocks,我们为企业和初创公司增加了一种新的方式,让他们能够以可预测的方式获取Nvidia GPU容量,用于构建、训练和部署他们的生成式AI应用。”
AWS客户现在可以使用AWS Management Console、Command Line Interface或者Software Development Kit来查找和预留GPU容量,从AWS美国东部(俄亥俄)区域开始,稍后将增加更多区域和本地区域。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。