至顶网软件频道消息:逻辑思维与更改思考能力无疑是实现智能的关键。而如果能够在机器当中复制这种能力,则将使得AI变得更加聪明。
但这一问题实现难度极大,特别是考虑到目前的深度学习方法还不够先进。深度学习在处理信息方面较为擅长,但却难以解决推理类任务。
这时出现了新的突破方向:关系网络,简称RN。
根据Alphabet公司旗下英国AI事业部DeepMind发布的最新论文,其正在尝试将关系网络引入卷积神经网络与经常性神经网络,从而推动这些在传统上负责实现计算机视觉与自然语言处理的机器获得推理能力。
DeepMind的一位发言人在接受采访时解释称,“并不是说深度学习不适合处理推理任务——更为确切地讲,实际上是不存在正确的深度学习架构或者模块以实现一般性关系推理。举例来说,卷积神经网络在理解本地空间结构方面拥有无与伦比的表现——这也是其被大量应用于图像识别模型中的理由,但其可能在其它推理任务当中遇到障碍。”
关系网络被描述为“即插即用”模块。其架构的设计方式专门用以确保网络能够专注于各对象之间的关系。其在一定程度上类似于图形网络,其中的节点即为各个对象,而连接节点的边界则为不同对象间的关系。
在CLEVR数据集中,这套网络将面对出数个具有不同形状、大小与纹理的对象,同时需要解答一系列用于测试其视觉推理能力的问题:
利用多种不同神经网络组件解决单一任务(图片来源:Santoro等)
为了回答以上关系问题,关系网络必须将所有对象的大小与“棕色金属物体”进行比较,且仅考虑圆柱体情况。首先,卷积神经网络会识别场景中的对象,而后利用一套长短期记忆网络将问题交付至关系网络当中。
问题当中嵌入的词汇允许关系网络专注于特定相关对象对,并计算其关系以提供答案。这是一种非常睿智的处理方式,允许利用单一功能解决每种关系。研究人员无需专为查看对象的大小与形状编写具体函数。这意味着关系网络能够更加高效地实现数据处理。
DeepMind在一篇博文当中解释称,“利用行业顶尖标准视觉问题回答架构对CLEVR进行处理,其能够得出68.5%的正确率,相比之下人类的识别准确率为92.5%。不过我们的关系网络增强型方案则带来了超越人类的95.5%的正确率水平。”
DeepMind在论文中同时指出,“我们预计,关系网络将为灵活的关系推理提供更为强大的支持性机制,从而帮助卷积神经网络更加专注于处理本地空间结构。这种在处理与推理层面的差异性非常重要。”
关系网络亦在语言推理方面表现出光明的发展前景。由Faebook公司AI研究团队推广的bABI数据集包含20项涉及重复内容、归纳与计数能力评估的问答任务。
首先其会提出一些事实,例如“Sandra拿起足球”以及“Sandra前往办公室”,而后再提出“足球在哪里?”等问题。关系网络通过了20项任务中的18项,这一表现远超以往Facebook与DeepMind所使用的可微分神经计算机记忆网络。
而未能通过的两项bAbI任务确实更加复杂,其要求关系网络分别参考“两项支持事实”与“三项支持事实”。这一结果显示,提升机器智能当中推理原理的工作仍然面对着漫长的前进道路。
必须承认目前研究尚处于早期阶段,而DeepMind希望能够将关系网络应用于多种不同问题,例如社交网络建模以及解决更为抽象的实际问题。
为了使其更加强大,DeepMind团队还希望能够进一步提升其计算效率。目前其测试对象支持数量为100个,但在配合更好的硬件时,其将能够支持更多对象并引入更多并行计算机制。
这项研究受到象征性AI设计思路的启发——在上世纪八十年代之前,学界一直坚持象征性思路,认为知识应能够被明确表示为事实与规则。
DeepMind资深研究科学家兼英国帝国理工学院教授Murray Shartahan认为,象征性AI的研究工作很有可能再度复苏。
Shanahan在接受采访时指出,“我认为机器学习社区长期以来对于这种作法较为忽视,即将符号AI思维引入神经网络架构,但仍有一部分研究人员多年来一直在追寻相关解决方案。近来,这种思路再次获得关注。尽管尚处于起步阶段,但这种构想确实很有希望。”
在实现整体智能这一难题的过程当中,推理无疑是机器必须掌握的其中一大重要组成部分。除此之外,我们还面临着另一些尚未得到解决的难题——包括记忆、注意力与自主判断等等。
好文章,需要你的鼓励
微软在Ignite 2025大会上预览了Windows的重要更新,显示出操作系统向支持AI智能体的根本性转变。新增功能包括原生支持模型上下文协议(MCP)、智能体连接器注册表、明确的权限管控模型,以及独立的智能体工作空间。这些更新建立了OS级别的身份验证、授权和审计机制,让智能体能够安全地执行文件操作和系统设置等任务,同时保持可控性和可追溯性。
华为诺亚实验室等机构联合提出了一种创新的AI训练方法,通过双层优化框架让AI从数据中自动学习评价标准。该方法结合了传统最大似然估计和强化学习的优势,在表格分类和模型驱动强化学习任务中展现出更好的收敛性和泛化能力,为解决强化学习中缺乏明确奖励信号的问题提供了新思路。
苹果即将发布的macOS Tahoe 26.2系统将支持通过雷雳5连接多台Mac设备,构建低延迟AI超算集群。该功能支持Mac Studio、M4 Pro Mac mini和MacBook Pro等设备。四台Mac Studio可高效运行万亿参数的Kimi-K2-Thinking模型,功耗不到500瓦,比传统GPU集群低10倍。此外,MLX项目将获得M5芯片神经加速器的完整访问权限。
中科院自动化所团队发布AVoCaDO系统,这是首个能精准捕捉视听事件时间同步关系的AI视频解说生成器。通过双阶段训练和创新奖励机制,AVoCaDO不仅能识别视频内容,更能准确把握各元素的时间关系,在多个基准测试中显著超越现有开源模型,甚至在某些指标上超过商业模型,为智能视频理解开辟新方向。