微软发布Phi-3.5小语言模型，欲推动AI创新进一步发展

微软最新发布的Phi-3.5系列AI模型，标志着小语言模型领域迎来又一波重大进展。

微软最新发布的Phi-3.5系列AI模型，标志着小语言模型领域迎来又一波重大进展。该家族由三款模型构成：Phi-3.5-mini-instruct、Phi-3.5-Mixture of Experts-instruct以及Phi-3.5-vision-instruct，各个模型均提供特定功能，旨在提高AI技术在不同任务下的性能表现。此版本彰显出微软致力于推动AI技术发展，同时维持良好效率与可及性的探索与尝试。

Phi-3.5模型家族概述

Phi-3.5-mini-instruct模型包含38亿参数，针对快速推理任务进行了优化。该模型在代码生成以及逻辑/数学问题的解决等领域表现相当出色。尽管与其他模型比较其规模相对较小，但却在各种性能基准测试当中拥有可与Meta Llama 3.1以及Mistral 7B等大模型相媲美的性能。微软致力于使其成为一套既强大、又高效的模型，这也代表着软件巨头致力于打造一款能够在资源受限环境下部署的高质量AI工具。

家族中的第二位成员Phi-3.5-Moe-instruct是三套模型中体量最大的一位，拥有420亿参数。不过得益于其混合专家架构，在任何给定操作期间，只有66亿参数处于活动状态。这样的设计使该模型能够高效处理跨多种语言的复杂AI任务。MoE方法使得模型能够仅激活与给定任务关联度最高的“专家”子模型，从而提高性能与资源利用率。该模型在需要多语言能力的任务当中特别有效，甚至优于谷歌Gemini 1.5 Flash等由竞争对手打造的更大模型。

第三套模型Phi-3.5-vision-instruct则将该家族的功能扩展到了多模态领域。此模型拥有42亿参数，能够处理文本和图像，适合光学字符识别、图表分析乃至视频摘要等任务。该模型在处理复杂视觉任务时表现出的能力，与业界体量更大的多模态模型几乎不相上下。

更多Phi-3.5高级功能

Phi-3.5家族最令人印象深刻的功能之一，就是所有模型都可支持高达12.8万token的长上下文窗口。此功能允许模型处理和生成大量数据，因此适合用于处理长文档、复杂对话乃至涉及多媒体内容的实际应用。在这么长的输入序列中保持一致性以及对上下文的感知能力，已经成为众多现代AI应用程序的一项关键需求。

训练这些模型当然离不开庞大的算力资源。例如，Phi-3.5-mini-instruct模型就以10天为周期使用到512张H100 GPU在3.4万亿个token上进行了训练。Phi-3.5-MoE模型的训练范围更广，在23天之内在4.9万亿个token上进行了训练，且同样使用512张H100 GPU。最后，Phi-3.5-vision-instruct模型在6天之内在5000亿token上进行了训练，且使用到256张A100 GPU。这种立足高质量、推理密集型公开数据集进行了密集训练，也让Phi-3.5模型家族拥有了令人印象深刻的功能表现。

开源与可及性

为了履行公司的开源承诺，微软已经根据开源MIT许可证对外发布Phi-3.5模型家族。开发人员可以通过Hugging Face平台访问这些模型，将其下载、修改并集成到自己的项目当中，且不受商业使用的限制。这种开源方法有望激发出更广泛的采用和实验，特别是在那些需要高级AI功能的加持、但却不具备从头开始训练模型的必要资源的应用领域。

竞争格局与影响

微软为Phi-3.5家族定下的战略就是开发出更小、更高效的AI模型，尽可能使其在特定任务中带来超越更大模型的表现。这种对效率的关注带来了几大关键优势，包括减少算力要求、加快推理时间以及因能耗降低而实现的环境友好能力。这些优势的存在，使得Phi-3.5模型家族特别适合部署在资源相对有限的边缘计算场景以及大规模云环境当中。

此次发布中最值得注意的方面之一，则在于微软宣称这些模型在特定任务当中可以用过谷歌、Meta甚至是OpenAI等竞争对手发布的更大体量模型。如果这些说法在后续实际应用当中得到验证，那么很可能预示着AI格局将发生转变，即模型效率将变得与原始规模及参数数量同等重要。这种方法挑战了以往AI开发领域“越大越好”的固有观点，有望引领AI开发进入一个专注于可持续性和可及性的新时代。

Phi-3.5家族代表着微软在AI研发方面迈出的重要一步。通过专注于打造体量更小、效率更高、能够处理各种任务的模型，微软希望就当前市场对于功能强大且资源高效的AI解决方案的旺盛需求交出一份令人满意的答卷。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

微软发布Phi-3.5小语言模型，欲推动AI创新进一步发展

来源：至顶网软件与服务频道

2024

08/27

10:29

分享

点赞

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

数据中心备份电力系统对比分析

Paxos以超1亿美元收购加密钱包初创公司Fordefi

腾讯发布"读图神器"HunyuanOCR，只用1%的参数就打败了行业巨头？

联想天津工厂入选“世界智能制造十大科技进展” 以零碳智造打造业内标杆

联想万全异构智算研发团队入选IEEE CyberSciTech 2025，RNL技术成果获国际认可！

首款搭载千问的AI硬件：夸克AI眼镜新品发布 次日门店现排队潮

ServiceNow或以超10亿美元收购网络安全初创公司Veza

谷歌云推出"PanyaThAI"计划加速泰国AI应用

英国产学合作推进光纤射频通信技术商业化进程

阿里巴巴推出可换电池设计的Quark AI智能眼镜

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

首款搭载千问的AI硬件：夸克AI眼镜新品发布次日门店现排队潮