Forrester对全球顶级AI大语言模型进行了审查、评分和排名,包括Amazon Bedrock、Google Gemini、OpenAI GPT-4和Anthropic Claude等。
在Forrester最新发布的报告《2024年第二季度用于语言的AI基础模型》中,Cohere和Mistral AI等AI初创公司与IBM、微软和Nvidia等全球科技巨头展开了正面交锋。
Forrester在这份报告中表示:“生成式AI时代把用于语言的AI基础模型推向了技术和商业领袖的前沿,由于创新速度惊人,热门初创公司和科技巨头之间的选择也很多,AI基础模型市场可能是买家最难以捉摸的市场之一。”
Forrester评选出了全球最重要的十大AI基础模型语言提供商,并列出了比较情况。
Forrester的AI基础模型排名体系
Forrester从三个类别评估了10家厂商的基础模型产品:AI基础模型产品本身、公司战略和整体市场存在。
对于这三个类别中的每一项,Forrester都以1到5的等级对厂商AI基础模型产品进行评分,1表示“弱”,5表示“强”。分数越高,基础模型产品和公司战略越好。
每家厂商的AI模型产品都根据不同因素进行了排名,包括核心功能、代码生成、治理和安全、模型管理、弹性和可扩展性、上下文窗口和总体范围,战略得分是基于愿景、合作伙伴生态系统和定价灵活性等多方面的,而市场存在则是基于收入和客户数量进行评分的。
以下是Forrester在这份名为《Forrester Wave:2024年第二季度用于语言的AI基础模型》报告中,排名前十的模型和厂商:
我们还分析了Forrester关于用于语言的全球十大最佳AI基础模型的历史报告。
领导者:谷歌
AI模型产品得分:4.82
战略得分:4.66
市场存在感得分:2
谷歌Gemini在Forrester的报告中获得了最高分4.82,这要归功于谷歌在多模态性、上下文长度和与Google Cloud服务互联互通方面体现出的市场差异化。
Gemini拥有所有受评估厂商中最大的上下文窗口:目前有100万个token,最近宣布是有200万个token,也是为数不多的商用多模态大型语言模型之一,具有37种语言的顶级多语言能力,高于任何其他厂商。
在“战略”类别中,谷歌在创新、路线图、定价灵活性和透明度以及合作伙伴生态系统方面综合得分5分。谷歌的最低得分来自市场存在类别,收入得分为1分,与竞争对手相当。
Forrester表示:“谷歌拥有引领AI市场的一切条件——庞大的AI基础设施容量、深厚的AI研究人员队伍、以及Google Cloud中越来越多的企业客户。”
领导者:Databricks DBRX
AI模型提供得分:3.38
战略得分:4.34
市场存在感得分:3
Databricks的DBRX产品获得了3.38分,这要归功于它既提供了自己预训练的DBRX模型,而且也为预训练或调整自己模型的客户提供了支持。
Databricks的平台在应用开发、治理安全、管理训练和部署模型方面具有强大的能力。
在“战略”类别中,Databricks在愿景、路线图、合作伙伴生态系统和支持服务方面获得了5分,最低得分是互动方式和多语言能力,仅得1分。
Forrester表示:“Databricks的产品是企业客户的理想选择,后者希望拥有一个功能强大的模型,其中包括了各种企业工具,不仅可以构建解决方案和微调模型,还可以使用经过自己数据预先训练的模型。”
领导者:Nvidia Nemotron
AI模型产品得分:3.38
战略得分:3.68
市场存在感得分:3
Nvidia最近发布的Nemotron产品获得3.38分,该产品让企业客户可以开箱即用地使用Nvidia模型,并激励现有和新技术合作伙伴推动前沿发展。
Nvidia的产品具有非常强大的多语言功能,通过Megatron模型提供多模式交互性,NeMo框架使其能够更快速、更高效地在Nvidia平台上构建AI基础语言模型。
在“战略”类别中,Nvidia在创新和合作伙伴生态系统方面获得5分。整个评估中,Nvidia没有任何1分或2分的低分。
Forrester表示:“有些合作伙伴企业希望能够为训练和推理模型硬件和软件需求提供一个最佳桥梁,对他们来说,Nvidia是一个不错的选择。”
表现强劲者:IBM Granite
AI模型产品得分:3.68
战略得分:3.32
市场存在感得分:1
IBM的Granite产品获得了3.68分,这要归功于IBM为客户提供了一些最强大的、最透明的底层训练数据洞察,并保护企业免受训练数据中任何未经授权的内容带来的风险。
IBM Granite具有强大的能力,可以将其模型与企业需求相结合,而且具有治理结构,以实现对模型的监控和管理。
在“战略”类别中,IBM在支持服务和产品方面获得了5分,在收入和客户数量、上下文窗口和核心功能方面均获得了较低的1分。
Forrester表示:“IBM非常适合那些希望从模型训练数据和AI平台功能中获得100%厂商保障的客户,这些功能可以帮助AI团队构建AI解决方案。”
表现强劲者:OpenAI GPT-4
AI模型产品得分:3.28
战略得分:3.70
市场存在感得分:5
OpenAI的GPT-4产品获得了3.28分,这要归功于OpenAI的模型是市场上最强大的模型之一,也是提供多模态大型语言模型的少数提供商之一。
OpenAI的GPT-4优势在于其核心模型功能,例如代码生成、多语言功能、上下文窗口和训练数据范围。
在“战略”类别中,OpenAI在愿景、创新和路线图方面获得了5分,还在市场存在感方面获得了最高分5分,在模型管理部署和支持产品方面得分较低。
Forrester表示:“对于那些希望利用模型本身的原始功能构建更复杂的应用架构,同时开始构建多模式生成式AI应用的开发人员来说,OpenAI是一个不错的选择。”
表现强劲者:AWS Amazon Bedrock
AI模型产品得分:2.90
战略得分:3.30
市场存在感得分:1
AWS的Amazon Bedrock凭借Titan模型获得了2.90分,而且AWS允许任何提供商在Bedrock中提供他们的模型。
AWS Bedrock服务提供周边支持工具方面具有强大的功能,包括模型对齐、治理和安全以及应用开发。
在“战略”类别中,AWS在路线图、定价灵活性和透明度、支持服务和产品方面获得了5分,在愿景、创新和Bedrock客户数量方面获得了较低的1分。
Forrester表示:“Amazon的AI基础语言模型产品将以其市场方法而非核心的Titan模型本身吸引AWS客户。”
表现强劲者:微软Phi
AI模型产品得分:2.82
战略得分:3.34
市场存在感得分:1
微软Phi获得了3.34分,这要归功于Phi模型除了真实内容外还利用了大量合成内容,从而可以使用更严格管理的、较小型的数据集进行训练。
微软Phi的能力尚不如市场中的其他很多产品,但其小规模和严格管理的训练数据集是一个核心亮点,围绕Phi系列的微软Azure AI服务提供了强大的功能,可以将模型行为与企业需求保持一致。
在“战略”类别中,微软在合作伙伴生态系统和支持服务和产品方面获得了5分,在定价灵活性和透明度、Phi收入和客户数量方面获得了较低的1分。
Forrester表示:“微软对OpenAI的投资和合作非常独特,特别是其独家性,微软几乎可以充当OpenAI核心模型以及微软自己的AI基础语言模型提供商。”
竞争者:Cohere Command
AI模型产品得分:2.72
战略得分:2.34
市场存在感得分:2
Cohere Command获得了2.72分,这要归功于它打造了业务友好型的模型,而且支持基于检索增强生成(RAG)的知识检索架构所需的数据管道。
Cohere的Command模型在语言和推理的核心模型功能方面具有优势,并且具有显著的多语言功能,可以对来自各种语言的数据进行预训练,例如对常见业务语言进行特定优化。
在“战略”类别中,Cohere没有获得任何4分或5分的高分,在合作伙伴生态系统方面也只获得了1分,不过Cohere Command在客户数量方面获得了3分,这比许多大型技术提供商都要高。
Forrester表示:“对于想要一个能够为他们提供RAG和其他知识检索用例强大支持的AI基础语言模型提供商的客户来说,Cohere是一个不错的选择。”
竞争者:Anthropic Claude
AI模型产品得分:2.46
战略得分:2.68
市场存在感得分:3
Anthropic Claude获得了2.46分,这要归功于它将模型与企业需求相结合的“Constitutional AI”原则,以及模型规模更大、复杂度更高的重要性。
Anthropic的核心模型具有非常强大的语言能力,拥有目前市场上最长的上下文窗口。
在“战略”类别中,Anthropic在愿景方面获得5分,在收入方面获得3分,在合作伙伴生态系统和支持服务及产品方面获得了较低的1分。
Forrester表示:“虽然Anthropic在预训练期间已经做了大量工作来使其模型与Constitutional AI方法保持一致,但它需要为企业提供更重要的功能来构建应用并在其中管理模型。”
挑战者:Mistral AI
AI模型产品得分:1.78
战略得分:1.32
市场存在感得分:1
Mistral AI在Forrester的报告中获得了最低分1.78,它的基础语言模型得分为1.78,在开放权重模型方面表现出色。
Mistral模型具有强大的核心语言功能,采用混合式的专家方法,使其能够在推理时使用较少的计算资源,同时实现更高的准确性。
在“战略”和“市场存在感”类别中,Mistral AI的得分大多为1分。
Forrester表示:“过去一年中,Mistral凭借在模型性能排行榜上表现优异的开放式模型声名鹊起,使其在市场上脱颖而出。然而,Mistral必须迅速强化销售、营销、平台工具开发和合作伙伴运营,才能与这个市场上越来越多的参与者展开竞争。”
好文章,需要你的鼓励
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AI虽具备变革企业洞察力的潜力,但成功依赖于数据质量。大多数AI项目失败源于数据混乱分散而非算法局限。谷歌BigQuery云数据AI平台打破数据孤岛,简化治理,加速企业AI应用。通过AI自动化数据处理,实现实时分析,并与Vertex AI深度集成,使企业能够高效处理结构化和非结构化数据,将智能商业转型从愿景变为现实。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。