至顶网软件频道消息:因击败世界顶尖围棋选手而名声大噪的谷歌人工智能精品店——DeepMind以消灭人类在智力方面的优越感妄想而著称,发现为其软件代理注入想象力有助于它们更好地学习。
本周发表的两篇论文——《Imagination-Augmented Agents for Deep Reinforcement Learning》和《Learning model-based planning from scratch》(从头开始基于模型的规划)——总部在英国人工智能业务的研究人员描述了通过想象力规划提升深度强化学习的新奇技术。
强化学习是机器学习的一种形式。它包含了通过与特定环境进行交互而学习的软件代理程序,通常通过反复尝试和犯错。深度学习是一种机器的形式,涉及受到人类大脑启发的算法——被称为神经网络。而这两种技术可以一起使用。
可以使用包含软件代理运行规则的模型来完成深层强化学习。例如,为了教会软件如何玩视频游戏,研究人员可能希望提供一个包含游戏信息的模型,这样可以避免在学习过程中代价高昂的尝试和犯错。或者研究人员可能会选择无模型的强化学习,期望软件代理最终自己选择游戏。
每种方法都有自身的缺点,基于模型的方法缺少在模型中未捕获的信息,而无需模型的方法需要大量数据集并且缺乏行为灵活性。DeepMind的工作尝试融合这两种方法的优点。
这些研究人员在他们的第一篇论文中解释说:“对环境模型的结构和可能存在的缺陷没有做出任何假设,我们的方法是以端对端的方式学习提取从模型模拟中收集的有用知识——特别不依赖于模拟的回报。”他们表示,“这样就可以让代理受益于基于模型的想象,而又不会陷入传统基于模型方式的陷阱。”
他们正在描述的是能够在行动之前思考的软件。
死胡同
DeepMind的研究人员提出通过构建,评估和执行计划来学习的软件代理。它将试错学习与模拟结合作为“飞行前”检查的一种形式,以便评估最有希望的途径,同时避免明显的死胡同。
研究人员用Sokoban测试了他们的想象力代理,这是一个拼图视频游戏,是1981年在日本创建的,其中包含了在仓库里移动盒子以及飞船导航游戏。
Sokoban允许玩家推盒子,但是不可以拉动盒子,这意味着可能会有一些动作会让游戏中的难题无法解决。因此,如果是人类玩家,游戏就会建议他们在开始行动之前先制订一个计划。研究人员认为,因为DeepMind代理也能够进行这样的规划,所以也非常适合这个游戏。
想象代理设法解决了所提出的Sokoban中85%的关卡,而标准无模型代理则为只能完成60%。它的表现也超过了一个拷贝模型代理,这是一个不使用有想象规划增强版的标准代理。
研究人员在一篇博客中解释说:“对于这两个任务来说,想象增强代理在很大程度上胜过无想象的基准:它们以较少的经验学习,能够处理环境建模的缺陷。”他们表示,“因为代理能够从内部模拟中提取更多的知识,和传统的搜索方法——例如蒙特卡洛树搜索——相比,它们能够使用更少的想象,完成更多的任务。”
在行动之前思考让机器学习工作变得更慢,但研究人员认为:“这在不可逆转的领域至关重要,在这些环境中某些行动可能会产生灾难性的后果,例如Sokoban。”
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。