AWS正在向自己的托管人工智能服务Amazon Bedrock部署一系列新的基础模型。
AWS近日详细介绍了这些新的模型以及其他一系列增强功能。根据AWS的说法,Bedrock客户将能够在该服务上运行定制的神经网络,还可以使用新功能来比较AI模型的性能并确保这些模型是符合内容安全标准的。
AWS在去年4月推出了Bedrock,提供对AWS和其他六家公司托管基础模型的访问路径。这些模型可以通过应用编程接口获得,从而让客户无需管理底层基础设施。因此,将AI模型集成到企业应用中涉及的工作是比较少的。
在今天的更新中,AWS去年11月预览的图像生成模型将在Bedrock中全面可用。这个名为Amazon Titan Image Generator的模型不仅可以创建图像,还可以根据自然语言指令编辑现有图像,它可以把不可见的水印嵌入到它创建的文件中,以简化识别AI生成内容的任务。
下周,Bedrock用户将可以使用另一个名为Amazon Titan Text Embeddings V2的新模型,这是Bedrock现有用于创建嵌入模型的增强版本,而且这些都是数学结构,神经网络在其中存储用于生成响应的信息。
AWS还在扩展Bedrock的第三方模型目录。Meta开源大型语言模型系列的最新版本Llama 3现在已经在Bedrock上可用。未来,AWS还将添加来自资金雄厚的大型语言模型初创公司Cohere的Command R和Command R+模型。Cohere R+是这两个模型中更先进的一个,在本月早些时候推出,支持10种语言。
AWS人工智能和数据副总裁Swami Sivasubramanian表示:“通过今天的发布,我们将加倍致力于为客户提供最全面的功能和行业领先模型的选项,继续为客户快速创新,进一步大规模实现生成式AI创新的普及。”
对于Bedrock内置AI目录无法完全满足其需求的客户来说,他们可以把自己的自定义模型引入该服务。根据AWS的说法,这是通过一项名为Bedrock Custom Model Import的新功能实现的,该功能也是今天更新的一部分。该功能让用户只需点击几下即可在Bedrock中使用外部的AI模型。
发布之后,该功能将与Mistral AI和Meta的Llama系列开源模型定制版本配合使用,还支持谷歌的开源大型语言模型Flan-T5,后者是谷歌最初于2019年推出的语言模型系列的最新型号之一。
用户向Bedrock引入的自定义大型语言模型可以访问内置模型提供的许多功能,包括Guardrails for Amazon Bedrock功能,该功能于今天上午全面上线,旨在防止AI模型生成有害的内容。
客户可以通过输入应该拒绝哪些提示的自然语言描述来配置该功能。例如,企业可以阻止包含信用卡号等敏感数据的请求,此外还有护栏可以调节AI模型的输出,适用于防止客户支持大型语言模型生成投资建议等任务。
确定哪种模型最适合给定的应用项目,这有时候需要数小时的手动测试。为了加快任务速度,AWS在Bedrock中推出了一个名为“Model Evaluation”的工具,允许用户选择服务中可用模型的子集,并通过让他们回答一组测试提示来比较其准确性。
Model Evaluation工具还可以根据其他指标来比较神经网络。例如,企业可以检查AI生成的响应是否符合其内容风格指南。对于使用自动化方法可能难以评估AI响应的情况,Model Evaluation工具提供了让人类测试员评估模型输出质量的选项。
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
Patronus AI发布突破性研究,构建了首个系统性AI代理错误评估体系TRAIL,涵盖148个真实案例和21种错误类型。研究发现即使最先进的AI模型在复杂任务错误识别上准确率仅11%,揭示了当前AI代理系统在长文本处理、推理能力和自我监控方面的重大局限,为构建更可靠的AI系统指明方向。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
这项研究首次从理论和实践证明AI模型可通过模仿生物睡眠-学习周期显著提升性能。研究发现AI训练中存在自发的"记忆-压缩循环",并据此开发了GAPT算法,在大语言模型预训练中实现4.8%性能提升和70%表示效率改善,在算术泛化任务中提升35%,为AI发展指出了注重信息整理而非单纯数据扩展的新方向。