据The Information近日报道,微软公司正在开发一个拥有约5000亿个参数的大型语言模型。
据悉,这个在微软内部被称为MAI-1的大型语言模型预计最早将于本月亮相。
OpenAI在2020年中期推出 GPT-3 时,详细说明了该模型的初始版本拥有1750亿个参数。该公司透露,GPT-4的规模更大,但尚未透露具体数字。有报道称,OpenAI的旗舰LLM包含1.76 万亿个参数,而性能与GPT-4相当的Google LLC的Gemini Ultra据说有1.6万亿个参数。
据报道,微软的MAI-1包含5000亿个参数,这表明它可以被定位为GPT-3和ChatGPT-4之间的一种中端选择。这样的配置可以让模型提供较高的响应精度,但耗电量却大大低于OpenAI的旗舰LLM。这将降低微软的推理成本。
据The Information报道,MAI-1的开发工作由LLM开发商Inflection AI公司的创始人Mustafa Suleyman负责。据称,微软以6.25亿美元的价格收购了这家初创公司,Suleyman与这家公司的大部分员工一起于今年3月加入微软。这位高管早些时候曾与他人共同创办了谷歌(Google LLC)的 DeepMind AI 研究小组。
据报道,微软可能会使用Inflection AI的训练数据和某些其他资产来支持 MAI-1。据说该模型的训练数据集还包括各类信息,包括由GPT-4生成的文本和网页内容。据报道,微软正在使用配备英伟达显卡的“大型服务器集群”进行开发。
The Information的消息来源指出,该公司尚未决定如何使用MAI-1。如果该模型确实拥有5000亿个参数,那么它就太复杂了,无法在消费类设备上运行。这意味着微软最有可能在其数据中心部署 MAI-1,将LLM集成到必应和Azure等服务中。
据信,如果MAI-1能够显示出足够的前景,微软将在5月16日举行的Build开发者大会上首次发布MAI-1。这暗示该公司有望在几周内拥有该模型的工作原型(如果现在还没有的话)。
正在开发MAI-1的消息传出之前不到两周,微软刚刚开源了一个被称为Pi-3 Mini的语言模型。据该公司称,Pi-3 Mini 拥有 38 亿个参数,性能超过规模是其10倍以上的LLM。Pi-3 是人工智能系列的一部分,该系列还包括另外两个更大、性能稍好的神经网络。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。