英伟达近日发布了一款轻量级语言模型Mistral-NeMo-Minitron 8B,该模型在一系列任务中的表现均优于同等规模的神经网络。
该模型的代码以开源许可的形式发布在Hugging Face网站上。该模型发布的前一天,微软刚刚推出了几个自己的开源语言模型。与英伟达的新算法一样,这些新模型也是为了在处理能力有限的设备上运行而设计的。
Mistral-NeMo-Minitron 8B是英伟达上个月推出的Mistral NeMo 12B语言模型的缩小版。后者是与Mistral AI SAS合作开发的算法,Mistral AI SAS是一家人工智能初创公司,已经募集了大量的资金。英伟达利用了两种名为“剪枝”和“提炼”的机器学习技术创建了Mistral-NeMo-Minitron 8B。
“剪枝”是一种通过删除代码库中不必要的组件来降低模型硬件要求的方法。神经网络由无数个人工神经元组成,每个人工神经元的代码片段都能执行一组相对简单的计算。其中一些代码片段在处理用户请求时发挥的作用不如其他代码片段活跃,这意味着可以在不显著降低人工智能输出质量的情况下删除这些代码片段。
在对 Mistral NeMo 12B进行“剪枝”后,英伟达进入了该项目的所谓“提炼”阶段。“提炼”是工程师将人工智能知识转移到另一个硬件效率更高的神经网络的过程。在这种情况下,第二个模型就是今天亮相的Mistral-NeMo-Minitron 8B,它比原来的模型少了40亿个参数。
开发人员还可以通过从头开始训练一个全新的模型来降低人工智能项目的硬件要求。与这种方法相比,“提炼”有几个优势,尤其是能提高人工智能的输出质量。将大型模型“提炼”为小型模型的成本也更低,因为这项任务不需要那么多训练数据。
英伟达表示,在开发过程中结合使用“剪枝”和“提炼”技术显著提高了Mistral-NeMo-Minitron 8B 的效率。英伟达的高管Kari Briski在一篇博文中介绍说,“其体积小到足以在配备了Nvidia RTX的工作站上运行,同时在人工智能支持的聊天机器人、虚拟助手、内容生成器和教育工具的多个基准测试中依然表现出色。”
Mistral-NeMo-Minitron 8B发布的前一天,微软刚刚开源了自己的三个语言模型。与英伟达的新算法一样,它们的开发也考虑到了硬件效率。
这些模型中最紧凑的名为Phi-3.5-mini-instruct。它拥有38亿个参数,可以处理多达 128,000个标记的数据提示,这使它能够摄取冗长的商业文档。微软进行的一项基准测试表明,Phi-3.5-mini-instruct在执行某些任务时比Llama 3.1 8B和Mistral 7B更出色,而后两者的参数数量大约是前者的两倍。
本周二,微软还开源了另外两个语言模型。第一个是Phi-3.5-vision-instruct,它是Phi-3.5-mini-instruct的一个版本,可以执行图像分析任务,比如解释用户上传的图表。它与Phi-3.5-MoE-instruct同时推出,后者是一个更大的模型,拥有608亿个参数。当用户输入提示时,只有十分之一的参数会激活,这大大减少了推理所需的硬件数量。
好文章,需要你的鼓励
宏碁Aspire 14 AI在Costco售价500美元,成为最便宜的Copilot Plus PC。该笔记本搭载英特尔Lunar Lake处理器,拥有现代化配置而非过时组件。配备16GB内存和1TB固态硬盘,电池续航近19小时。虽然设计和显示屏表现一般,但整体性能出色,AI处理能力达到40万亿次操作每秒,是预算有限用户的优质选择。
CORA是微软研究院与谷歌研究团队联合开发的突破性AI视觉模型,发表于2023年CVPR会议。它通过创新的"区域提示"和"锚点预匹配"技术,成功解决了计算机视觉领域的一大挑战——开放词汇目标检测。CORA能够识别训练数据中从未出现过的物体类别,就像人类能够举一反三一样。在LVIS数据集测试中,CORA的性能比现有最佳方法提高了4.6个百分点,尤其在稀有类别识别上表现突出。这一技术有望广泛应用于自动驾驶、零售、安防和辅助技术等多个领域。
博通公司第三季度业绩超预期,每股收益1.69美元,营收159.6亿美元,同比增长22%。公司获得来自新客户的100亿美元定制AI芯片订单,推动股价在盘后交易中上涨超3%。AI相关营收同比增长63%至52亿美元,预计第四季度将超过62亿美元。公司专注为超大规模云基础设施提供商设计定制芯片,已成为英伟达的主要竞争对手之一,年内股价上涨32%,市值超1.4万亿美元。
中国电信研究院联合重庆大学、北航发布T2R-bench基准,首次系统评估AI从工业表格生成专业报告的能力。研究涵盖457个真实工业表格,测试25个主流AI模型,发现最强模型得分仅62.71%,远低于人类专家96.52%。揭示AI在处理复杂结构表格、超大规模数据时存在数字计算错误、信息遗漏等关键缺陷,为AI数据分析技术改进指明方向。