Forrester对全球顶级AI大语言模型进行了审查、评分和排名,包括Amazon Bedrock、Google Gemini、OpenAI GPT-4和Anthropic Claude等。
在Forrester最新发布的报告《2024年第二季度用于语言的AI基础模型》中,Cohere和Mistral AI等AI初创公司与IBM、微软和Nvidia等全球科技巨头展开了正面交锋。
Forrester在这份报告中表示:“生成式AI时代把用于语言的AI基础模型推向了技术和商业领袖的前沿,由于创新速度惊人,热门初创公司和科技巨头之间的选择也很多,AI基础模型市场可能是买家最难以捉摸的市场之一。”
Forrester评选出了全球最重要的十大AI基础模型语言提供商,并列出了比较情况。
Forrester的AI基础模型排名体系
Forrester从三个类别评估了10家厂商的基础模型产品:AI基础模型产品本身、公司战略和整体市场存在。
对于这三个类别中的每一项,Forrester都以1到5的等级对厂商AI基础模型产品进行评分,1表示“弱”,5表示“强”。分数越高,基础模型产品和公司战略越好。
每家厂商的AI模型产品都根据不同因素进行了排名,包括核心功能、代码生成、治理和安全、模型管理、弹性和可扩展性、上下文窗口和总体范围,战略得分是基于愿景、合作伙伴生态系统和定价灵活性等多方面的,而市场存在则是基于收入和客户数量进行评分的。
以下是Forrester在这份名为《Forrester Wave:2024年第二季度用于语言的AI基础模型》报告中,排名前十的模型和厂商:
我们还分析了Forrester关于用于语言的全球十大最佳AI基础模型的历史报告。
领导者:谷歌
AI模型产品得分:4.82
战略得分:4.66
市场存在感得分:2
谷歌Gemini在Forrester的报告中获得了最高分4.82,这要归功于谷歌在多模态性、上下文长度和与Google Cloud服务互联互通方面体现出的市场差异化。
Gemini拥有所有受评估厂商中最大的上下文窗口:目前有100万个token,最近宣布是有200万个token,也是为数不多的商用多模态大型语言模型之一,具有37种语言的顶级多语言能力,高于任何其他厂商。
在“战略”类别中,谷歌在创新、路线图、定价灵活性和透明度以及合作伙伴生态系统方面综合得分5分。谷歌的最低得分来自市场存在类别,收入得分为1分,与竞争对手相当。
Forrester表示:“谷歌拥有引领AI市场的一切条件——庞大的AI基础设施容量、深厚的AI研究人员队伍、以及Google Cloud中越来越多的企业客户。”
领导者:Databricks DBRX
AI模型提供得分:3.38
战略得分:4.34
市场存在感得分:3
Databricks的DBRX产品获得了3.38分,这要归功于它既提供了自己预训练的DBRX模型,而且也为预训练或调整自己模型的客户提供了支持。
Databricks的平台在应用开发、治理安全、管理训练和部署模型方面具有强大的能力。
在“战略”类别中,Databricks在愿景、路线图、合作伙伴生态系统和支持服务方面获得了5分,最低得分是互动方式和多语言能力,仅得1分。
Forrester表示:“Databricks的产品是企业客户的理想选择,后者希望拥有一个功能强大的模型,其中包括了各种企业工具,不仅可以构建解决方案和微调模型,还可以使用经过自己数据预先训练的模型。”
领导者:Nvidia Nemotron
AI模型产品得分:3.38
战略得分:3.68
市场存在感得分:3
Nvidia最近发布的Nemotron产品获得3.38分,该产品让企业客户可以开箱即用地使用Nvidia模型,并激励现有和新技术合作伙伴推动前沿发展。
Nvidia的产品具有非常强大的多语言功能,通过Megatron模型提供多模式交互性,NeMo框架使其能够更快速、更高效地在Nvidia平台上构建AI基础语言模型。
在“战略”类别中,Nvidia在创新和合作伙伴生态系统方面获得5分。整个评估中,Nvidia没有任何1分或2分的低分。
Forrester表示:“有些合作伙伴企业希望能够为训练和推理模型硬件和软件需求提供一个最佳桥梁,对他们来说,Nvidia是一个不错的选择。”
表现强劲者:IBM Granite
AI模型产品得分:3.68
战略得分:3.32
市场存在感得分:1
IBM的Granite产品获得了3.68分,这要归功于IBM为客户提供了一些最强大的、最透明的底层训练数据洞察,并保护企业免受训练数据中任何未经授权的内容带来的风险。
IBM Granite具有强大的能力,可以将其模型与企业需求相结合,而且具有治理结构,以实现对模型的监控和管理。
在“战略”类别中,IBM在支持服务和产品方面获得了5分,在收入和客户数量、上下文窗口和核心功能方面均获得了较低的1分。
Forrester表示:“IBM非常适合那些希望从模型训练数据和AI平台功能中获得100%厂商保障的客户,这些功能可以帮助AI团队构建AI解决方案。”
表现强劲者:OpenAI GPT-4
AI模型产品得分:3.28
战略得分:3.70
市场存在感得分:5
OpenAI的GPT-4产品获得了3.28分,这要归功于OpenAI的模型是市场上最强大的模型之一,也是提供多模态大型语言模型的少数提供商之一。
OpenAI的GPT-4优势在于其核心模型功能,例如代码生成、多语言功能、上下文窗口和训练数据范围。
在“战略”类别中,OpenAI在愿景、创新和路线图方面获得了5分,还在市场存在感方面获得了最高分5分,在模型管理部署和支持产品方面得分较低。
Forrester表示:“对于那些希望利用模型本身的原始功能构建更复杂的应用架构,同时开始构建多模式生成式AI应用的开发人员来说,OpenAI是一个不错的选择。”
表现强劲者:AWS Amazon Bedrock
AI模型产品得分:2.90
战略得分:3.30
市场存在感得分:1
AWS的Amazon Bedrock凭借Titan模型获得了2.90分,而且AWS允许任何提供商在Bedrock中提供他们的模型。
AWS Bedrock服务提供周边支持工具方面具有强大的功能,包括模型对齐、治理和安全以及应用开发。
在“战略”类别中,AWS在路线图、定价灵活性和透明度、支持服务和产品方面获得了5分,在愿景、创新和Bedrock客户数量方面获得了较低的1分。
Forrester表示:“Amazon的AI基础语言模型产品将以其市场方法而非核心的Titan模型本身吸引AWS客户。”
表现强劲者:微软Phi
AI模型产品得分:2.82
战略得分:3.34
市场存在感得分:1
微软Phi获得了3.34分,这要归功于Phi模型除了真实内容外还利用了大量合成内容,从而可以使用更严格管理的、较小型的数据集进行训练。
微软Phi的能力尚不如市场中的其他很多产品,但其小规模和严格管理的训练数据集是一个核心亮点,围绕Phi系列的微软Azure AI服务提供了强大的功能,可以将模型行为与企业需求保持一致。
在“战略”类别中,微软在合作伙伴生态系统和支持服务和产品方面获得了5分,在定价灵活性和透明度、Phi收入和客户数量方面获得了较低的1分。
Forrester表示:“微软对OpenAI的投资和合作非常独特,特别是其独家性,微软几乎可以充当OpenAI核心模型以及微软自己的AI基础语言模型提供商。”
竞争者:Cohere Command
AI模型产品得分:2.72
战略得分:2.34
市场存在感得分:2
Cohere Command获得了2.72分,这要归功于它打造了业务友好型的模型,而且支持基于检索增强生成(RAG)的知识检索架构所需的数据管道。
Cohere的Command模型在语言和推理的核心模型功能方面具有优势,并且具有显著的多语言功能,可以对来自各种语言的数据进行预训练,例如对常见业务语言进行特定优化。
在“战略”类别中,Cohere没有获得任何4分或5分的高分,在合作伙伴生态系统方面也只获得了1分,不过Cohere Command在客户数量方面获得了3分,这比许多大型技术提供商都要高。
Forrester表示:“对于想要一个能够为他们提供RAG和其他知识检索用例强大支持的AI基础语言模型提供商的客户来说,Cohere是一个不错的选择。”
竞争者:Anthropic Claude
AI模型产品得分:2.46
战略得分:2.68
市场存在感得分:3
Anthropic Claude获得了2.46分,这要归功于它将模型与企业需求相结合的“Constitutional AI”原则,以及模型规模更大、复杂度更高的重要性。
Anthropic的核心模型具有非常强大的语言能力,拥有目前市场上最长的上下文窗口。
在“战略”类别中,Anthropic在愿景方面获得5分,在收入方面获得3分,在合作伙伴生态系统和支持服务及产品方面获得了较低的1分。
Forrester表示:“虽然Anthropic在预训练期间已经做了大量工作来使其模型与Constitutional AI方法保持一致,但它需要为企业提供更重要的功能来构建应用并在其中管理模型。”
挑战者:Mistral AI
AI模型产品得分:1.78
战略得分:1.32
市场存在感得分:1
Mistral AI在Forrester的报告中获得了最低分1.78,它的基础语言模型得分为1.78,在开放权重模型方面表现出色。
Mistral模型具有强大的核心语言功能,采用混合式的专家方法,使其能够在推理时使用较少的计算资源,同时实现更高的准确性。
在“战略”和“市场存在感”类别中,Mistral AI的得分大多为1分。
Forrester表示:“过去一年中,Mistral凭借在模型性能排行榜上表现优异的开放式模型声名鹊起,使其在市场上脱颖而出。然而,Mistral必须迅速强化销售、营销、平台工具开发和合作伙伴运营,才能与这个市场上越来越多的参与者展开竞争。”
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。