至顶网软件频道消息:逻辑思维与更改思考能力无疑是实现智能的关键。而如果能够在机器当中复制这种能力,则将使得AI变得更加聪明。
但这一问题实现难度极大,特别是考虑到目前的深度学习方法还不够先进。深度学习在处理信息方面较为擅长,但却难以解决推理类任务。
这时出现了新的突破方向:关系网络,简称RN。
根据Alphabet公司旗下英国AI事业部DeepMind发布的最新论文,其正在尝试将关系网络引入卷积神经网络与经常性神经网络,从而推动这些在传统上负责实现计算机视觉与自然语言处理的机器获得推理能力。
DeepMind的一位发言人在接受采访时解释称,“并不是说深度学习不适合处理推理任务——更为确切地讲,实际上是不存在正确的深度学习架构或者模块以实现一般性关系推理。举例来说,卷积神经网络在理解本地空间结构方面拥有无与伦比的表现——这也是其被大量应用于图像识别模型中的理由,但其可能在其它推理任务当中遇到障碍。”
关系网络被描述为“即插即用”模块。其架构的设计方式专门用以确保网络能够专注于各对象之间的关系。其在一定程度上类似于图形网络,其中的节点即为各个对象,而连接节点的边界则为不同对象间的关系。
在CLEVR数据集中,这套网络将面对出数个具有不同形状、大小与纹理的对象,同时需要解答一系列用于测试其视觉推理能力的问题:
利用多种不同神经网络组件解决单一任务(图片来源:Santoro等)
为了回答以上关系问题,关系网络必须将所有对象的大小与“棕色金属物体”进行比较,且仅考虑圆柱体情况。首先,卷积神经网络会识别场景中的对象,而后利用一套长短期记忆网络将问题交付至关系网络当中。
问题当中嵌入的词汇允许关系网络专注于特定相关对象对,并计算其关系以提供答案。这是一种非常睿智的处理方式,允许利用单一功能解决每种关系。研究人员无需专为查看对象的大小与形状编写具体函数。这意味着关系网络能够更加高效地实现数据处理。
DeepMind在一篇博文当中解释称,“利用行业顶尖标准视觉问题回答架构对CLEVR进行处理,其能够得出68.5%的正确率,相比之下人类的识别准确率为92.5%。不过我们的关系网络增强型方案则带来了超越人类的95.5%的正确率水平。”
DeepMind在论文中同时指出,“我们预计,关系网络将为灵活的关系推理提供更为强大的支持性机制,从而帮助卷积神经网络更加专注于处理本地空间结构。这种在处理与推理层面的差异性非常重要。”
关系网络亦在语言推理方面表现出光明的发展前景。由Faebook公司AI研究团队推广的bABI数据集包含20项涉及重复内容、归纳与计数能力评估的问答任务。
首先其会提出一些事实,例如“Sandra拿起足球”以及“Sandra前往办公室”,而后再提出“足球在哪里?”等问题。关系网络通过了20项任务中的18项,这一表现远超以往Facebook与DeepMind所使用的可微分神经计算机记忆网络。
而未能通过的两项bAbI任务确实更加复杂,其要求关系网络分别参考“两项支持事实”与“三项支持事实”。这一结果显示,提升机器智能当中推理原理的工作仍然面对着漫长的前进道路。
必须承认目前研究尚处于早期阶段,而DeepMind希望能够将关系网络应用于多种不同问题,例如社交网络建模以及解决更为抽象的实际问题。
为了使其更加强大,DeepMind团队还希望能够进一步提升其计算效率。目前其测试对象支持数量为100个,但在配合更好的硬件时,其将能够支持更多对象并引入更多并行计算机制。
这项研究受到象征性AI设计思路的启发——在上世纪八十年代之前,学界一直坚持象征性思路,认为知识应能够被明确表示为事实与规则。
DeepMind资深研究科学家兼英国帝国理工学院教授Murray Shartahan认为,象征性AI的研究工作很有可能再度复苏。
Shanahan在接受采访时指出,“我认为机器学习社区长期以来对于这种作法较为忽视,即将符号AI思维引入神经网络架构,但仍有一部分研究人员多年来一直在追寻相关解决方案。近来,这种思路再次获得关注。尽管尚处于起步阶段,但这种构想确实很有希望。”
在实现整体智能这一难题的过程当中,推理无疑是机器必须掌握的其中一大重要组成部分。除此之外,我们还面临着另一些尚未得到解决的难题——包括记忆、注意力与自主判断等等。
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。