微软公司日前发布了Phi-4的代码。Phi-4是一个可以生成文本并解决数学问题的小型语言模型。
微软上个月首次详细介绍了Phi-4模型。最初的Phi-4只能通过微软的Azure Foundry人工智能开发服务访问。现在,Phi-4模型可以从Hugging Face下载。Hugging Face是一个托管开源人工智能项目的热门网站。
Phi-4是微软于2023年推出的小型语言模型系列的第四代版本,拥有140亿个参数,这些参数设定决定了神经网络如何处理数据。微软的研究人员利用英伟达公司提供的1,920块H100图形处理器集群,花了21天训练Phi-4。
Phi-4模型基于行业标准的 Transformer 架构。Transformer架构是大多数大型语言模型的基础。Transformer 模型收到用户提示后会将输入分解为单个单词,并通过分析上下文的文本确定每个单词的含义。这种模型还会优先处理上下文文本中被认为最相关的部分。
Phi-4采用的是所谓纯解码器的Transformer架构变体。标准的Transformer模型会分析单词前后的文本来确定其含义。纯解码器模型则只关注单词之前的文本,从而减少了需要处理的数据量,降低了推理成本。
微软在一份研究论文中详细介绍了如何使用两种后训练优化技术提升Phi-4的输出质量。这两种方法分别被称为直接偏好优化和监督微调。两种方法都需要向语言模型提供示例,用于指导模型如何生成符合要求的即时响应。
微软在一次内部评估中将Phi-4与Llama 3.3 70B 进行了比较,后者的参数是Phi-4的五倍。微软表示,在常用的GPQA和MATH基准测试中,Phi-4的表现更好。GPQA和MATH两个测试数据集分别包含科学问题和数学问题。
在过去一年中,各大科技公司争相开源了越来越多的小型语言模型,Phi-4 也正式加入了这一行列。
谷歌公司去年二月推出了一系列名为 Gemma 的小型语言模型。Gemma系列模型的算法拥有20亿到270亿个参数。谷歌表示,270亿个参数的Gemma版本在性能上优于参数数量是其两倍的模型。
Meta Platforms 公司最近发布了两个参数少于 50 亿 Llama 3.2 模型。随后,Meta又开源了这些模型的更高效版本,这些版本实现了机器学习里的量化技术。量化技术可以压缩神经网络获取的数据,减少处理数据所需的硬件数量。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。