本周二AWS在介绍了“生成式AI堆栈”的参数后,今天AWS在拉斯维加斯举行年度re:Invent大会上推出了实现这一愿景的关键服务和工具。

AWS公司数据和人工智能副总裁Swami Sivasubramanian(如图)在宣布最新系列产品的主题演讲中,将生成式AI比喻为“称为超新星的美丽能量爆炸”,以描述当前专注于科技领域的AI。
Sivasubramanian在re:Invent大会演讲过程中表示:“人类与技术之间的强大关系正在我们所有人面前展开,我喜欢把如今发生的一些事情视为数据、生成式AI和人类之间一种有益的关系。”
SageMaker所扮演的角色
这种有益的关系将取决于AWS为企业客户提供支持的能力,而这种能力是由实现生成式AI结构的需求所驱动的。从云巨头AWS的角度来看,这其中包括访问基础模型、利用数据的私有环境、用于构建和部署应用的易于使用的工具、以及专门构建的机器学习基础设施。
正如今天发布版本所定义的,该结构将很大程度上依赖于AWS的机器学习平台SageMaker,以及新推出的Amazon Q生成式AI助手,另外Amazon Bedrock也是一个重要资源,是AWS通过API提供基础模型的一项服务。
针对SageMaker,AWS推出了HyperPod解决方案,旨在消除优化模型训练的机器学习基础设施所涉及的无差别繁重工作。AWS表示,这一新产品将把模型训练时间缩短了40%。
Sivasubramanian表示:“这是一件大事,客户将会看到显着的改进。”
HyperPod的重要性在于,它能够解决IT基础设施在处理数据量和训练模型所需复杂性方面的局限性,这通常涉及到把模型训练分散到数百或数千个加速器上,并行运行数周或数月时间的数万亿数据计算。
SageMaker HyperPod让客户能够自动在计算资源之间分配训练工作负载,定期保存检查点,以避免在某个组件发生故障时损失时间。
Amazon SageMaker董事兼总经理Ankur Mehrotra在接受媒体采访时表示:“你可以把这视为流量管理问题。它优化了GPU之间的通信,为客户提供可以自我修复的训练集群。”
加强数据基础
AWS在本周发布的Amazon Q生成式AI助手基础上,又在Redshift中添加了生成式SQL来简化查询编写,并在使用自然语言的无服务器AWS Glue平台中添加了数据集成功能。
Sivasubramanian表示:“Q通过连接你的数据来支持业务的几乎每个领域,AI可以增强为其提供动力的数据基础。我们利用这项技术来解决数据管理中的一些重大挑战。”
Amazon Bedrock在AWS本周发布的公告中占据了显着位置。Bedrock于今年9月全面上市,AWS首席执行官Adam Selipsky和Sivasubramanian在他们的主题演讲中均指出,Bedrock已经被超过10000家客户使用。
AWS一直在持续为Bedrock积累新的功能,并进行一系列增强,包括本周二添加的微调功能和新的安全服务。今天的重点则是满足更广泛的模型选择需求,AWS宣布已纳入Anthropic语言模型最新版本Claude 2.1,同时还将在Bedrock中添加Meta的Llama2 70B。
Sivasubramanian表示:“我们仍处于生成式AI的早期阶段,这些模型将继续加速发展。”
Bedrock也成为矢量数据库领域一个有用的资源。Sivasubramanian在讲话中指出,现在有许多矢量数据库是为Bedrock量身定制的,包括Redis Enterprise Cloud和Pinecone,MongoDB和Amazon Aurora也将加入其中。
AWS宣布推出了新的矢量搜索功能,包括OpenSearch Serverless、Document DB、Dynamo DB和Amazon MemoryDB for Redis。在今年早些时候发布在AWS网站上的一篇论文中,AWS分析服务、数据库和AI领导力副总裁G2 Krishnamoorthy以及一些合作者概述了矢量数据存储在生成式AI中发挥的重要作用。
在数据库中映射语义关系的嵌入或向量元素,对于生成式AI领域来说有很大的用处。Krishnamoorthy在接受媒体采访时表示:“矢量嵌入可以更有力地表示这些信息,在这方面我们还处于非常早期的阶段。”
对于最终为AI巨头提供动力的几项技术来说,现在可能还为时过早,但AWS已经利用这次re:Invent大会的机会,展示了自己有兴趣在这个技术方向上拥有的主要发言权。
Sivasubramanian表示:“数据、生成式AI和人类之间强大的共生关系,正在加速我们创新的能力,AWS拥有解锁这项强大技术的一切。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。