微软开发出了一种小型语言模型,在解决某些数学问题时,它的效果比规模几倍于它的算法还要好。
该公司于本周四公布了这一模型:Phi-4。该算法的性能之所以引人注目,主要是因为其构建方式:微软主要使用合成数据或机器生成的数据来训练Phi-4,而不是按照通常的做法使用网页内容。该模型的数学能力表明,在小型模型的训练数据集中加入更多合成文件可能是一种能够提高其推理能力的方法。
Phi-4是微软去年推出的开源语言模型系列的第四次迭代。它的架构与其前身Phi-3-medium几乎完全相同。这两个神经网络都有140亿个参数,可以处理多达4000个词元(token)的提示,词元是包含几个字符的数据单元。
其中一个不同点是,Phi-4采用了升级的tokenizer。这是一个能将用户提示分解为词元的组件,从而使文本更易于处理。
微软还增强了Phi-4的注意力机制。这是语言模型用来查找文本中最重要细节的软件组件。上一代Phi-3-medium的注意力机制最多只能分析2000个用户输入的词元,而Phi-4可以分析4000个。
Phi-4的主要创新在于其训练方式。微软使用了不少于50个合成数据集来训练该模型,这些数据集合计包含约4000亿个词元。微软的研究人员通过一个多步骤的流程创建了这些文件。
在第一阶段,微软从公共网络、现有的人工智能训练数据集和其他来源收集内容。包括数以千万计的问题和答案等信息。
微软删除了能够在网上找到多个相同答案的问题。该公司解释说,因为这通常表明问题过于简单。同时,微软还删除了那些看起来过于复杂的问题,因为这些问题的可用答案之间存在很大差异。
该公司利用这批初始文件作为模板,据此生成合成数据。微软的研究人员使用了几种不同的方法来生成合成文件。
在项目的一个阶段,研究人员使用人工智能将网络信息改写成测试问题。然后,微软让人工智能模型生成答案。最后,该公司指示算法分析其答案,并尽可能加以改进。
在项目的另一个阶段,微软将开源代码作为合成数据生成过程的起点。该公司将一个代码片段输入人工智能,并要求它生成一个问题,问题的正确答案就是所提供的代码片段。随后将生成的这个问题纳入用于开发Phi-4的训练数据集。
创建初始版本的数据集后,微软使用一套自动化工作流程检查其准确性。Phi-4的开发人员在一份研究论文中写道:“我们在验证推理繁重的合成数据集时加入了测试。”“合成代码数据通过执行循环和测试进行验证。对于科学数据集,问题是从科学资料中提取的。”
在完成训练过程后,微软通过十几个基准对Phi-4的输出质量进行了评估。除一项基准测试外,该算法在其他所有基准测试中的表现都优于其前辈,在某些情况下表现甚至提高了20%。
值得注意的是,在两个基准测试中,Phi-4还成功超越了GPT-4o和Meta Platforms最新发布的Llama 3.3 :GPQA和MATH。前者的数据集包括448道多选题,涉及多个科学领域。MATH包括数学问题。据微软称,尽管Phi-4的参数数量只有Llama 3.3的五分之一,但在这两项测试中,Phi-4的表现比Llama 3.3高出5%以上。
微软人工智能前沿小组常务董事Ece Kamar在一篇博文中写道:“Phi-4在数学相关推理上的表现优于同类和更大型的模型,这得益于整个流程的进步,包括使用高质量的合成数据集、使用高质量的有机数据以及训练之后的创新。”
目前可通过微软的Azure AI Foundry服务使用Phi-4。微软计划下周在Hugging Face上提供代码。
好文章,需要你的鼓励
Luminary Cloud宣布完成7200万美元B轮融资,专注开发"物理AI"技术。该公司云原生平台可将仿真速度提升100倍,利用物理信息模型实时预测汽车、飞机等产品性能。公司推出针对特定行业的预训练模型,包括与本田合作的汽车设计模型和与Otto航空合作的飞机开发模型。融资由西门子风投领投,将用于扩大研发团队和市场销售。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
伦敦量子动态科技公司宣布交付业界首台采用传统半导体制造工艺的量子计算机。该系统已安装在英国国家量子计算中心,使用标准化300毫米硅晶圆,是首台自旋量子比特计算机。系统采用CMOS技术,占地约三个19英寸服务器机架,具备数据中心友好特性。公司开发的可扩展瓦片架构支持大规模生产,未来可扩展至每个量子处理单元数百万量子比特,为商业化应用奠定基础。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。