Gemini "正在以非常棒的方式融合在一起",谷歌在发布2.5 Pro后表示

Google 在生成式 AI 领域起步较晚,但近期 Gemini 发展迅速。最新发布的 Gemini 2.5 Pro (实验版)在基准测试和用户体验方面均有显著提升,有望挑战 ChatGPT 的主导地位。Google 表示,这得益于长期投资的成果开始发挥作用。新版本在推理能力、性能效率等方面都有进步,但在技术细节透明度方面仍有待改进。

尽管谷歌在开发生成式AI的底层技术方面发挥了重要作用,但面对生成式AI突然飙升的兴趣,谷歌却措手不及。这促使该公司重新集中其大量资源来追赶OpenAI。此后,我们看到了细节模糊的Bard和多种版本的多模态Gemini模型。虽然Gemini在基准测试和用户体验方面一直难以取得进展,但随着新的2.5 Pro(实验版)的发布,这种情况可能正在改变。凭借基准测试的巨大提升和良好的"氛围",这可能是第一个能够撼动ChatGPT主导地位的谷歌模型。

我们最近与谷歌Gemini产品管理总监Tulsee Doshi交谈,讨论了Gemini 2.5的发布过程,以及谷歌AI模型未来的发展方向。

## 欢迎来到"氛围"时代

谷歌在构建生成式AI产品方面可能起步较慢,但Gemini团队在最近几个月加快了步伐。该公司在12月发布了Gemini 2.0,显示出相比1.5版本的适度改进。仅用了三个月就达到了2.5版本,这意味着Gemini 2.0 Pro甚至还没有走出实验阶段。据Doshi所说,这是谷歌对Gemini长期投资的结果。

"老实说,很大一部分原因是我们一直在构建的许多组件和基础现在正以非常棒的方式融合在一起," Doshi说。"所以我们感觉能够在这里加快步伐。"

发布新模型的过程涉及测试大量候选模型。根据Doshi的说法,谷歌采用多层次的方法来检查这些模型,首先从基准测试开始。"我们有一套评估体系,包括外部学术基准测试和我们为关心的用例创建的内部评估,"她说。

团队还使用这些测试来改进安全性,正如谷歌在每个可能的场合都会指出的那样,安全性仍然是其开发Gemini的核心部分。Doshi指出,使模型安全并准备好广泛发布涉及对抗性测试和大量的实操时间。

但我们不能忘记"氛围",它已成为AI模型越来越重要的一部分。人们非常关注输出的"氛围"——它们有多吸引人和有用。还有一个新兴趋势叫做"氛围编码",即使用AI提示来构建东西,而不是自己输入代码。对Gemini团队来说,这些概念是相互关联的。团队利用产品和用户反馈来理解输出的"氛围",无论是代码还是只是对问题的回答。

谷歌已多次指出,Gemini 2.5在LM Arena排行榜上名列前茅,这表明使用过该模型的人明显更喜欢其输出——它有着良好的"氛围"。在经历了漫长的攀升之后,Gemini能够处于这样的积极位置无疑是好事,但该领域确实存在一些担忧,即过分强调"氛围"可能会推动我们走向那些让我们感觉良好的模型,而不管输出是否真的好,这种特性被称为"阿谀奉承"。

如果Gemini团队对让人感觉良好的模型有所担忧,他们并没有表现出来。Doshi提到团队专注于代码生成,她指出这可以被优化为"愉悦的体验",而不会助长用户的自我。"我认为'氛围'不是我们试图追求的某种特定性格特征,"Doshi说。

幻觉是生成式AI模型的另一个关注领域。谷歌曾因Gemini和Bard编造内容而经历过许多尴尬的经历,但Gemini团队相信他们走在正确的道路上。Gemini 2.5显然在团队的事实性指标中创下了新高。但幻觉是否能够减少到我们可以完全信任AI的程度?对此没有评论。

## 不要过度思考

使用Gemini 2.5时你可能会注意到的最有趣的事情是,与其他使用模拟推理的模型相比,它非常快。谷歌表示,它正在将这种"思考"能力构建到其所有未来的模型中,这应该会带来改进的输出。2024年大语言模型推理能力的扩展导致这些工具质量的显著提高。但这也使它们变得更加昂贵,加剧了生成式AI已经存在的严重问题。

LLM越大、越复杂,运行成本就越高。谷歌尚未发布其较新模型的参数数量等技术数据——你必须回到1.5版本才能获得这种详细信息。然而,Doshi解释说,Gemini 2.5在规模上并不比谷歌的上一代模型大很多,称其大小与2.0"相当"。

Gemini 2.5在一个关键领域更加高效:思维链。它是谷歌第一个支持名为"动态思考"功能的公开模型,该功能允许模型调节输出所需的推理量。不过,这只是第一步。

"我认为目前,我们发布的2.5 Pro模型对于更简单的提示仍然会过度思考,这是我们希望继续改进的地方,"Doshi说。"所以我们正在投资的一个重要领域是动态思考,作为实现2.5 Pro正式版本的途径,在该版本中,它对更简单的提示会思考得更少。"

谷歌没有单独列出其新AI业务的收益,但我们可以安全地假设目前没有利润可言。还没有人成功地将这些庞大的LLM转变为可行的业务。拥有最大用户群的OpenAI的ChatGPT,即使对于支付200美元Pro计划的用户也在亏损。谷歌计划在2025年在AI基础设施上投资750亿美元,因此充分利用这些非常昂贵的硬件将至关重要。构建不会在"嗨,你好吗?"这样的简单问题上浪费计算周期过度思考的模型可能会有很大帮助。

## 缺失的技术细节

谷歌对Gemini的信息保持谨慎,但2.5 Pro的发布比以往任何时候都提供了更多关于公司计划的见解。然而,要真正理解这个模型,我们需要看到技术报告。谷歌上一次发布这样的文档是针对Gemini 1.5的。我们仍然没有看到2.0版本的报告,现在2.5已经取代了2.0,我们可能永远也看不到那份文档了。

Doshi指出,2.5 Pro仍然是一个实验性模型。因此,不要期望立即看到完整的评估报告。谷歌发言人澄清说,计划对2.5分支进行完整的技术评估报告,但没有确定的时间表。谷歌甚至还没有为Gemini 2.0发布更新的模型卡,更不用说2.5了。这些文档是简短的一页总结,包含模型的训练、预期用途、评估数据等信息。它们本质上是LLM的"营养标签"。虽然比技术报告少了很多细节,但总比没有好。谷歌确认Gemini 2.0和2.5的模型卡正在制作中。

鉴于最近发布速度的加快,Gemini 2.5 Pro可能会在5月的谷歌I/O大会前后更广泛地推出。我们当然希望谷歌在2.5分支扩展时能提供更多细节。随着Gemini开发加速,透明度不应该被搁置一旁。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2025

04/08

11:55

分享

点赞

邮件订阅