至顶网软件频道消息:因击败世界顶尖围棋选手而名声大噪的谷歌人工智能精品店——DeepMind以消灭人类在智力方面的优越感妄想而著称,发现为其软件代理注入想象力有助于它们更好地学习。
本周发表的两篇论文——《Imagination-Augmented Agents for Deep Reinforcement Learning》和《Learning model-based planning from scratch》(从头开始基于模型的规划)——总部在英国人工智能业务的研究人员描述了通过想象力规划提升深度强化学习的新奇技术。
强化学习是机器学习的一种形式。它包含了通过与特定环境进行交互而学习的软件代理程序,通常通过反复尝试和犯错。深度学习是一种机器的形式,涉及受到人类大脑启发的算法——被称为神经网络。而这两种技术可以一起使用。
可以使用包含软件代理运行规则的模型来完成深层强化学习。例如,为了教会软件如何玩视频游戏,研究人员可能希望提供一个包含游戏信息的模型,这样可以避免在学习过程中代价高昂的尝试和犯错。或者研究人员可能会选择无模型的强化学习,期望软件代理最终自己选择游戏。
每种方法都有自身的缺点,基于模型的方法缺少在模型中未捕获的信息,而无需模型的方法需要大量数据集并且缺乏行为灵活性。DeepMind的工作尝试融合这两种方法的优点。
这些研究人员在他们的第一篇论文中解释说:“对环境模型的结构和可能存在的缺陷没有做出任何假设,我们的方法是以端对端的方式学习提取从模型模拟中收集的有用知识——特别不依赖于模拟的回报。”他们表示,“这样就可以让代理受益于基于模型的想象,而又不会陷入传统基于模型方式的陷阱。”
他们正在描述的是能够在行动之前思考的软件。
死胡同
DeepMind的研究人员提出通过构建,评估和执行计划来学习的软件代理。它将试错学习与模拟结合作为“飞行前”检查的一种形式,以便评估最有希望的途径,同时避免明显的死胡同。
研究人员用Sokoban测试了他们的想象力代理,这是一个拼图视频游戏,是1981年在日本创建的,其中包含了在仓库里移动盒子以及飞船导航游戏。
Sokoban允许玩家推盒子,但是不可以拉动盒子,这意味着可能会有一些动作会让游戏中的难题无法解决。因此,如果是人类玩家,游戏就会建议他们在开始行动之前先制订一个计划。研究人员认为,因为DeepMind代理也能够进行这样的规划,所以也非常适合这个游戏。
想象代理设法解决了所提出的Sokoban中85%的关卡,而标准无模型代理则为只能完成60%。它的表现也超过了一个拷贝模型代理,这是一个不使用有想象规划增强版的标准代理。
研究人员在一篇博客中解释说:“对于这两个任务来说,想象增强代理在很大程度上胜过无想象的基准:它们以较少的经验学习,能够处理环境建模的缺陷。”他们表示,“因为代理能够从内部模拟中提取更多的知识,和传统的搜索方法——例如蒙特卡洛树搜索——相比,它们能够使用更少的想象,完成更多的任务。”
在行动之前思考让机器学习工作变得更慢,但研究人员认为:“这在不可逆转的领域至关重要,在这些环境中某些行动可能会产生灾难性的后果,例如Sokoban。”
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
DeepSeek-AI团队通过创新的软硬件协同设计,仅用2048张GPU训练出性能卓越的DeepSeek-V3大语言模型,挑战了AI训练需要海量资源的传统观念。该研究采用多头潜在注意力、专家混合架构、FP8低精度训练等技术,大幅提升内存效率和计算性能,为AI技术的民主化和可持续发展提供了新思路。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
加拿大女王大学研究团队首次系统评估了大型视频语言模型的因果推理能力,发现即使最先进的AI在理解视频中事件因果关系方面表现极差,大多数模型准确率甚至低于随机猜测。研究创建了全球首个视频因果推理基准VCRBench,并提出了识别-推理分解法(RRD),通过任务分解显著提升了AI性能,最高改善幅度达25.2%。