AWS最近宣布,人工智能安全和研究公司Anthropic PBC将在Amazon Bedrock上提供自己的Claude 3系列模型。Claude 3 Sonnet和Claude 3 Haiku都已经在Bedrock上提供,今天Claude 3 Opus也已经全面向AWS客户推出。
AWS表示,这将可以帮助客户测试、构建和部署生成式AI应用。Amazon Bedrock内置了负责任的AI,提供了一系列完全托管的大型语言模型和基础模型,以及易用性功能,是构建和扩展生成式AI应用的最简单方法。
在此之前,AWS宣布在现有的Mistral 7B和Mixtral 8x7B 型号之外,新增支持法国领先的AI初创公司Mistral AI最新的、最先进的大型语言模型Mistral Large。客户可以使用Mistral AI的模型来总结和回答问题,凭借对文本结构和体系结构的深刻理解来帮助组织信息。与Mistral AI和Anthropic的合作巩固了AWS向各行业客户提供AI解决方案的承诺。
在Opus正式发布之前,AWS生成式AI副总裁Vasi Philomin和我们讨论了Bedrock,他说,访问多种类型的模型是一个明确的需求。
使用不同的模型
他说:“当你构建生成式AI应用的时候,你就需要访问不同的模型,仅仅一种模型是不够的,我们已经从客户那里清楚地了解到这一点。”他表示,AWS从一开始的立场就是提供最好的模型,并在Bedrock无服务器上提供这些模型,让客户可以进行实验和迭代。
Anthropic的这一新产品进一步丰富了Amazon Bedrock已经十分广泛的生成式AI模型,除了Anthropic现有的模型之外,还有AI21 Labs、Cohere、Meta Platforms、Mistral AI、Stability AI和Amazon的模型。
根据Anthropic称,Claude 3 Opus在推理、数学和编码方面优于其他可用模型,包括OpenAI的GPT-4。根据Anthropic的说法,Claude 3 Sonnet的速度是早期Claude模型的2倍,而且在此过程中也没有以牺牲智能性为代价。Claude 3 Haiku旨在提供近乎即时的响应,而且是三者中最实惠的。
这给那些不想被OpenAI的GPT-4 等特定模型锁定的用户提供了多种选择。但找到能够满足需求的恰当模型,可能是具有挑战的。Philomin声称,AWS已经解决了这个问题。
评估你需要什么
他说:“去年我们在re:Invent大会上公布了Bedrock本身模型评估功能的预览,这就是它让客户能够做到的事情:你进入Bedrock并选择你想要评估的模型。然后,对于你的应用,你需要一组提示来确定正在处理的应用类型,然后就可以根据提示对这些模型进行比较。”
他说,Bedrock中有两种模型评估方法。
“首先是自动化方法,我们有一堆预先填充的指标,这样客户就可以使用我们定义的指标,此外我们还有一些额外的公共数据集,如果他们想要使用的话。但是,理想情况下,他们应该拥有自己的数据集——也就是我谈到的提示内容。”
然后,客户使用自动评估功能来确定哪个模型更好。
让人类找出最合适的方案
“我始终相信,自动化评估会给你一种方向感,但最终你需要进行人工评估,以确定哪个更适合。因此,作为Bedrock模型评估能力的一部分,我们还会引入人工评估。”
这可能涉及企业员工针对与特定应用相关提示对模型输出进行审查和评级。他说,他们为此目的在Bedrock中构建了这些工作流程。AWS还有其他评估能力,但Philomin认为,大多数将依赖于模型评估能力。
一些要点
虽然微软已经走上了“单一模式统治一切的道路”,这非常“微软”,但AWS选择在开放和选择的基础上构建自己的AI战略,这是一条更长的、更具挑战性的道路,因为这突出了评估、测试和选择合适模型的能力,可能会带来更好的长期回报。如今,AWS拥有广泛的模型可供评估和测试,并且此次增加Anthropic的最新模型进一步强化了AWS的领先地位。
目前AWS有很多客户在使用Claude技术构建生成式AI应用,其中包括ADP、Amdocs、Bridgewater Associates、Dana-Farber Cancer Institute、Delta Air Lines、GoDaddy、Intuit、LexisNexis Legal & Professional、Pfizer、PGA TOUR和西门子。
GPT-4等模型非常有趣且功能强大,然而对于业务应用来说,可能是需要混合数据集的。Google最近宣布推出了Opus预览版,但Amazon Bedrock是唯一向客户提供所有三种Claude 3模型(Sonnet、Haiku和Opus)的服务,至少目前处于生成式AI的前沿位置。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。