AWS今天在纽约AWS Summit峰会上宣布,将扩展完全托管的AI基础模型服务Bedrock,以包含来自Cohere、Anthropic和Stability AI的各种新模型,以及开发人员部署他们自动化代理执行复杂任务的能力。
Amazon Bedrock是AWS一项完全托管的服务,为客户提供了基础的生成式AI模型。客户可以使用该服务在安全环境中使用Amazon高性能基础设施上自己的数据来训练和微调模型,而无需进行任何管理。
生成式AI在众多行业中开放了各种各样的应用用例,在这些用例中,模型可用于充实公司的数据资源,以生成洞察、撰写电子邮件、进行研究、生成图表、生成艺术品等。
“生成式AI有潜力改变每一个应用、业务和行业。数据处理、计算和机器学习方面的进步正在加速各种规模AWS客户从实验到部署的转变,”AWS数据库、分析和机器学习副总裁Swami Sivasubramanian(如图)表示。
Cohere是Bedrock最新的基础模型提供商。Cohere提供了一个名为Command的基于文本的生成模型,专为企业级业务应用而设计。Command经过训练可以遵循用户的命令,并能够进行摘要、文案、对话、摘录和问答。Cohere还开发了一个名为Embed的文本理解模型,该模型提供了100多种语言的搜索和分类任务,使应用能够快速搜索文本中的上下文和含义。
除此之外还有Claude 2,这是Anthropic对Claude聊天机器人的最新升级版。它可以为每个文本提示接收最多100000个令牌,大约75000个单词,这意味着用户能够提交极长的文档,并让AI编写更长的文档作为响应,大约几千个令牌。
人工智能初创公司Stability AI,开发了文本到图像生成式AI模型Stable Diffusion,该公司正在通过Stable Diffusion XL 1.0将最新的生成图像模型迭代引入Bedrock。用户使用自然语言文本输入可以告诉SDXL 1.0他们想要它生成什么,从而生成生动而美丽的图像,通常具有更高级别的照片级真实感。最新型号相比前几代产品更加强大,带来卓越的品质以及图像合成和真实感方面的增强功能。
Stability AI公司创始人、首席执行官Emad Mostaque表示:“Stability AI依靠创新而蓬勃发展,我们在Amazon Bedrock上的基础模型Stable Diffusion反映了生成式AI领域最具开创性的发展。最新版本的基础模型 SDXL 1.0,其图像和构图细节比其前身有所改进,使Amazon Bedrock客户能够访问尖端的资源,并推进我们通过AI激活人类潜力的目标。”
今天AWS还在Amazon SageMaker JumpStart上发布了SDXL 1.0,一个为开发人员提供的机器学习中心,可提供对算法、模型和解决方案的访问。
Amazon Bedrock代理自动执行复杂的AI任务
尽管基础模型能够理解会话语言提示并生成文本或图像作为响应(用于摘要或问答等任务),但无法完成应用调用或与第三方系统交互等复杂任务。
为了实现这一目标,Amazon Bedrock将为开发人员引入完全托管的功能,以创建可以调用“代理”的生成式AI应用,“代理”可以将任务分解为多个步骤,从而按需完成一系列任务。
无需任何手动编码,Agents for Amazon Bedrock就可以自动分解任务并根据开发人员的需求生成编排计划,然后,代理通过应用编程接口安全地连接到企业数据。
例如,可以使用代理让生成式AI模型完成为员工设置休假请求或者预订飞机航班的任务。所有这些都需要模型了解用户的要求,然后逐步执行一系列任务来完成所需的设置。在每种情况下,甚至可能需要员工或客户回答后续问题,人工智能模型可能需要澄清,或者更新也可能需要最新信息,需要连接或者代理需要进一步处理的任务。
Bedrock Agents通过为开发人员提供了执行API调用、获取资源和处理系统集成所需的所有资源,以便他们可以完成应用工作,在幕后安全地管理所有这些应用。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。