据The Information近日报道,微软公司正在开发一个拥有约5000亿个参数的大型语言模型。
据悉,这个在微软内部被称为MAI-1的大型语言模型预计最早将于本月亮相。
OpenAI在2020年中期推出 GPT-3 时,详细说明了该模型的初始版本拥有1750亿个参数。该公司透露,GPT-4的规模更大,但尚未透露具体数字。有报道称,OpenAI的旗舰LLM包含1.76 万亿个参数,而性能与GPT-4相当的Google LLC的Gemini Ultra据说有1.6万亿个参数。
据报道,微软的MAI-1包含5000亿个参数,这表明它可以被定位为GPT-3和ChatGPT-4之间的一种中端选择。这样的配置可以让模型提供较高的响应精度,但耗电量却大大低于OpenAI的旗舰LLM。这将降低微软的推理成本。
据The Information报道,MAI-1的开发工作由LLM开发商Inflection AI公司的创始人Mustafa Suleyman负责。据称,微软以6.25亿美元的价格收购了这家初创公司,Suleyman与这家公司的大部分员工一起于今年3月加入微软。这位高管早些时候曾与他人共同创办了谷歌(Google LLC)的 DeepMind AI 研究小组。
据报道,微软可能会使用Inflection AI的训练数据和某些其他资产来支持 MAI-1。据说该模型的训练数据集还包括各类信息,包括由GPT-4生成的文本和网页内容。据报道,微软正在使用配备英伟达显卡的“大型服务器集群”进行开发。
The Information的消息来源指出,该公司尚未决定如何使用MAI-1。如果该模型确实拥有5000亿个参数,那么它就太复杂了,无法在消费类设备上运行。这意味着微软最有可能在其数据中心部署 MAI-1,将LLM集成到必应和Azure等服务中。
据信,如果MAI-1能够显示出足够的前景,微软将在5月16日举行的Build开发者大会上首次发布MAI-1。这暗示该公司有望在几周内拥有该模型的工作原型(如果现在还没有的话)。
正在开发MAI-1的消息传出之前不到两周,微软刚刚开源了一个被称为Pi-3 Mini的语言模型。据该公司称,Pi-3 Mini 拥有 38 亿个参数,性能超过规模是其10倍以上的LLM。Pi-3 是人工智能系列的一部分,该系列还包括另外两个更大、性能稍好的神经网络。
好文章,需要你的鼓励
Arelion升级其斯堪的纳维亚网络,连接超大规模数据中心以支持该地区蓬勃发展的AI市场。该网络基于1.6Tbps波长和可扩展400G相干可插拔光学技术,在奥斯陆、斯德哥尔摩和哥本哈根之间构建AI"超级高速公路"。升级将为企业客户提供增强的全球互联网骨干网接入和多样化连接服务。预计2025年第二季度末完成,并计划在2025年剩余时间及2026年继续投资。
这项由香港科技大学领导的研究首次建立了大语言模型安全守护栏的系统性评估框架。研究团队对13种主流守护栏进行了全面测试,提出了六维分类体系和SEU三维评估标准,揭示了不同守护栏在安全性、效率和实用性方面的权衡关系,为AI安全防护技术的选择和部署提供了科学指导。
CloudBees首席执行官Anuj Kapur表示,AI可能重新测试DevOps的基础假设,但警告不要为追求效率而创建黑盒代码。他指出,一些因担心错失机会而匆忙采用AI生成代码的客户正开始放缓步伐,变得更加谨慎。Kapur认为,将整代软件外包给提示工程将创建非人类生成的黑盒代码,虽然效率高但质量、测试覆盖率和漏洞问题值得担忧。
南加州大学研究团队开发出一种名为PILS的新技术,能够通过分析AI模型输出时的概率信息来破解隐藏的系统指令。这种方法通过观察AI生成文本过程中多个步骤的"思考轨迹",将隐藏提示的恢复成功率提高了2-3.5倍。研究发现AI模型的概率输出存在于低维空间中,可以用数学方法进行压缩和逆向分析。这项发现对AI安全具有重要影响,揭示了当前依赖隐藏指令的安全机制可能存在漏洞,为AI安全防护提出了新挑战。