至顶网软件频道消息:因击败世界顶尖围棋选手而名声大噪的谷歌人工智能精品店——DeepMind以消灭人类在智力方面的优越感妄想而著称,发现为其软件代理注入想象力有助于它们更好地学习。
本周发表的两篇论文——《Imagination-Augmented Agents for Deep Reinforcement Learning》和《Learning model-based planning from scratch》(从头开始基于模型的规划)——总部在英国人工智能业务的研究人员描述了通过想象力规划提升深度强化学习的新奇技术。
强化学习是机器学习的一种形式。它包含了通过与特定环境进行交互而学习的软件代理程序,通常通过反复尝试和犯错。深度学习是一种机器的形式,涉及受到人类大脑启发的算法——被称为神经网络。而这两种技术可以一起使用。
可以使用包含软件代理运行规则的模型来完成深层强化学习。例如,为了教会软件如何玩视频游戏,研究人员可能希望提供一个包含游戏信息的模型,这样可以避免在学习过程中代价高昂的尝试和犯错。或者研究人员可能会选择无模型的强化学习,期望软件代理最终自己选择游戏。
每种方法都有自身的缺点,基于模型的方法缺少在模型中未捕获的信息,而无需模型的方法需要大量数据集并且缺乏行为灵活性。DeepMind的工作尝试融合这两种方法的优点。
这些研究人员在他们的第一篇论文中解释说:“对环境模型的结构和可能存在的缺陷没有做出任何假设,我们的方法是以端对端的方式学习提取从模型模拟中收集的有用知识——特别不依赖于模拟的回报。”他们表示,“这样就可以让代理受益于基于模型的想象,而又不会陷入传统基于模型方式的陷阱。”
他们正在描述的是能够在行动之前思考的软件。
死胡同
DeepMind的研究人员提出通过构建,评估和执行计划来学习的软件代理。它将试错学习与模拟结合作为“飞行前”检查的一种形式,以便评估最有希望的途径,同时避免明显的死胡同。
研究人员用Sokoban测试了他们的想象力代理,这是一个拼图视频游戏,是1981年在日本创建的,其中包含了在仓库里移动盒子以及飞船导航游戏。
Sokoban允许玩家推盒子,但是不可以拉动盒子,这意味着可能会有一些动作会让游戏中的难题无法解决。因此,如果是人类玩家,游戏就会建议他们在开始行动之前先制订一个计划。研究人员认为,因为DeepMind代理也能够进行这样的规划,所以也非常适合这个游戏。
想象代理设法解决了所提出的Sokoban中85%的关卡,而标准无模型代理则为只能完成60%。它的表现也超过了一个拷贝模型代理,这是一个不使用有想象规划增强版的标准代理。
研究人员在一篇博客中解释说:“对于这两个任务来说,想象增强代理在很大程度上胜过无想象的基准:它们以较少的经验学习,能够处理环境建模的缺陷。”他们表示,“因为代理能够从内部模拟中提取更多的知识,和传统的搜索方法——例如蒙特卡洛树搜索——相比,它们能够使用更少的想象,完成更多的任务。”
在行动之前思考让机器学习工作变得更慢,但研究人员认为:“这在不可逆转的领域至关重要,在这些环境中某些行动可能会产生灾难性的后果,例如Sokoban。”
好文章,需要你的鼓励
数字孪生技术正在改变网络安全防御模式,从被动响应转向主动预测。这种实时学习演进的虚拟副本让安全团队能够在威胁发生前预见攻击。组织可以在数字孪生环境中预演明日的攻击,将防御从事后反应转变为事前排演。通过动态更新的IT生态系统副本,团队可在真实条件下压力测试防御体系,模拟零日漏洞攻击并制定应对策略,从根本上重塑网络安全实践方式。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
Linux内核开发面临动荡时期,Rust语言引入引发摩擦,多名核心开发者相继离职。文章介绍了三个有趣的替代方案:Managarm是基于微内核的操作系统,支持运行Linux软件;Asterinas采用Rust语言开发,使用新型framekernel架构实现内核隔离;Xous同样基于Rust和微内核设计,已有实际硬件产品Precursor发布。这些项目证明了除Linux之外,还有许多令人兴奋的操作系统研发工作正在进行。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。