微软发布主要使用合成数据训练的Phi-4语言模型

微软开发出了一种小型语言模型，在解决某些数学问题时，它的效果比规模几倍于它的算法还要好。

该公司于本周四公布了这一模型：Phi-4。该算法的性能之所以引人注目，主要是因为其构建方式：微软主要使用合成数据或机器生成的数据来训练Phi-4，而不是按照通常的做法使用网页内容。该模型的数学能力表明，在小型模型的训练数据集中加入更多合成文件可能是一种能够提高其推理能力的方法。

Phi-4是微软去年推出的开源语言模型系列的第四次迭代。它的架构与其前身Phi-3-medium几乎完全相同。这两个神经网络都有140亿个参数，可以处理多达4000个词元（token）的提示，词元是包含几个字符的数据单元。

其中一个不同点是，Phi-4采用了升级的tokenizer。这是一个能将用户提示分解为词元的组件，从而使文本更易于处理。

微软还增强了Phi-4的注意力机制。这是语言模型用来查找文本中最重要细节的软件组件。上一代Phi-3-medium的注意力机制最多只能分析2000个用户输入的词元，而Phi-4可以分析4000个。

Phi-4的主要创新在于其训练方式。微软使用了不少于50个合成数据集来训练该模型，这些数据集合计包含约4000亿个词元。微软的研究人员通过一个多步骤的流程创建了这些文件。

在第一阶段，微软从公共网络、现有的人工智能训练数据集和其他来源收集内容。包括数以千万计的问题和答案等信息。

微软删除了能够在网上找到多个相同答案的问题。该公司解释说，因为这通常表明问题过于简单。同时，微软还删除了那些看起来过于复杂的问题，因为这些问题的可用答案之间存在很大差异。

该公司利用这批初始文件作为模板，据此生成合成数据。微软的研究人员使用了几种不同的方法来生成合成文件。

在项目的一个阶段，研究人员使用人工智能将网络信息改写成测试问题。然后，微软让人工智能模型生成答案。最后，该公司指示算法分析其答案，并尽可能加以改进。

在项目的另一个阶段，微软将开源代码作为合成数据生成过程的起点。该公司将一个代码片段输入人工智能，并要求它生成一个问题，问题的正确答案就是所提供的代码片段。随后将生成的这个问题纳入用于开发Phi-4的训练数据集。

创建初始版本的数据集后，微软使用一套自动化工作流程检查其准确性。Phi-4的开发人员在一份研究论文中写道：“我们在验证推理繁重的合成数据集时加入了测试。”“合成代码数据通过执行循环和测试进行验证。对于科学数据集，问题是从科学资料中提取的。”

在完成训练过程后，微软通过十几个基准对Phi-4的输出质量进行了评估。除一项基准测试外，该算法在其他所有基准测试中的表现都优于其前辈，在某些情况下表现甚至提高了20%。

值得注意的是，在两个基准测试中，Phi-4还成功超越了GPT-4o和Meta Platforms最新发布的Llama 3.3 ：GPQA和MATH。前者的数据集包括448道多选题，涉及多个科学领域。MATH包括数学问题。据微软称，尽管Phi-4的参数数量只有Llama 3.3的五分之一，但在这两项测试中，Phi-4的表现比Llama 3.3高出5%以上。

微软人工智能前沿小组常务董事Ece Kamar在一篇博文中写道：“Phi-4在数学相关推理上的表现优于同类和更大型的模型，这得益于整个流程的进步，包括使用高质量的合成数据集、使用高质量的有机数据以及训练之后的创新。”

目前可通过微软的Azure AI Foundry服务使用Phi-4。微软计划下周在Hugging Face上提供代码。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

微软发布主要使用合成数据训练的Phi-4语言模型

来源：至顶网软件与服务频道

2024

12/16

16:41

分享

点赞

几分钟完成3D渲染？HP ZBook Fury G1i 移动工作站让AI设计流程真正落地了

火山引擎：AI不再只是技术潜力，Agent成为下一个战场

零门槛?高产出！联想百应智能体携手通义万相2.6，助力企业AI营销破局增长

OpenAI或从亚马逊获得超100亿美元融资

2026年非结构化数据管理五大预测

Amazon重组AI部门：27年老将统领AGI组织

安全专家给出的8条AI聊天机器人使用安全建议

普渡大学将AI能力列为本科毕业必备要求

浩云长盛的算力工具箱：让兼容与前瞻同行

英特尔酷睿Ultra第三代，如何推动AI PC规模化落地？

Google发布Gemini 3 Flash并将其设为默认模型

思科自研AI模型正式应用于产品，首先赋能身份安全服务

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

QwQ-32B模型成本地部署福音，通义App可第一时间体验

入局智驾的印奇，看到了怎样的未来？

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

天翼云CPU实例部署DeepSeek-R1模型最佳实践

京东云与宝德计算战略签约，共绘分布式存储与智算新未来

全球AI顶会AAAI 2025 在美开幕，产学研联手的“中国队”表现亮眼

蚂蚁数科提出创新跨域微调框架ScaleOT入选全球AI顶会AAAI 2025

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: