微软开发出了一种小型语言模型,在解决某些数学问题时,它的效果比规模几倍于它的算法还要好。
该公司于本周四公布了这一模型:Phi-4。该算法的性能之所以引人注目,主要是因为其构建方式:微软主要使用合成数据或机器生成的数据来训练Phi-4,而不是按照通常的做法使用网页内容。该模型的数学能力表明,在小型模型的训练数据集中加入更多合成文件可能是一种能够提高其推理能力的方法。
Phi-4是微软去年推出的开源语言模型系列的第四次迭代。它的架构与其前身Phi-3-medium几乎完全相同。这两个神经网络都有140亿个参数,可以处理多达4000个词元(token)的提示,词元是包含几个字符的数据单元。
其中一个不同点是,Phi-4采用了升级的tokenizer。这是一个能将用户提示分解为词元的组件,从而使文本更易于处理。
微软还增强了Phi-4的注意力机制。这是语言模型用来查找文本中最重要细节的软件组件。上一代Phi-3-medium的注意力机制最多只能分析2000个用户输入的词元,而Phi-4可以分析4000个。
Phi-4的主要创新在于其训练方式。微软使用了不少于50个合成数据集来训练该模型,这些数据集合计包含约4000亿个词元。微软的研究人员通过一个多步骤的流程创建了这些文件。
在第一阶段,微软从公共网络、现有的人工智能训练数据集和其他来源收集内容。包括数以千万计的问题和答案等信息。
微软删除了能够在网上找到多个相同答案的问题。该公司解释说,因为这通常表明问题过于简单。同时,微软还删除了那些看起来过于复杂的问题,因为这些问题的可用答案之间存在很大差异。
该公司利用这批初始文件作为模板,据此生成合成数据。微软的研究人员使用了几种不同的方法来生成合成文件。
在项目的一个阶段,研究人员使用人工智能将网络信息改写成测试问题。然后,微软让人工智能模型生成答案。最后,该公司指示算法分析其答案,并尽可能加以改进。
在项目的另一个阶段,微软将开源代码作为合成数据生成过程的起点。该公司将一个代码片段输入人工智能,并要求它生成一个问题,问题的正确答案就是所提供的代码片段。随后将生成的这个问题纳入用于开发Phi-4的训练数据集。
创建初始版本的数据集后,微软使用一套自动化工作流程检查其准确性。Phi-4的开发人员在一份研究论文中写道:“我们在验证推理繁重的合成数据集时加入了测试。”“合成代码数据通过执行循环和测试进行验证。对于科学数据集,问题是从科学资料中提取的。”
在完成训练过程后,微软通过十几个基准对Phi-4的输出质量进行了评估。除一项基准测试外,该算法在其他所有基准测试中的表现都优于其前辈,在某些情况下表现甚至提高了20%。
值得注意的是,在两个基准测试中,Phi-4还成功超越了GPT-4o和Meta Platforms最新发布的Llama 3.3 :GPQA和MATH。前者的数据集包括448道多选题,涉及多个科学领域。MATH包括数学问题。据微软称,尽管Phi-4的参数数量只有Llama 3.3的五分之一,但在这两项测试中,Phi-4的表现比Llama 3.3高出5%以上。
微软人工智能前沿小组常务董事Ece Kamar在一篇博文中写道:“Phi-4在数学相关推理上的表现优于同类和更大型的模型,这得益于整个流程的进步,包括使用高质量的合成数据集、使用高质量的有机数据以及训练之后的创新。”
目前可通过微软的Azure AI Foundry服务使用Phi-4。微软计划下周在Hugging Face上提供代码。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。