至顶网软件频道消息:IBM的算法深蓝(Deep Blue)1997年击败了国际象棋冠军加里.卡斯帕罗夫(Garry Kasparov)。2011年,IBM的Watson赢得了游戏节目Jeopardy。不久之后,IBM研究团队已经做好了准备要超越玩游戏的范畴,并开始集思广益人工智能算法的下一个挑战壮举。他们决定创建一个人工智能算法,该算法将在辩论艺术方面进行训练。
在刚刚过去的六月,一小群观众看到IBM Project Debater的首次公开亮相和前两次辩论,当时它与以色列辩手Dan Zafrir和Noa Ovadia分别就提高远程医疗投资和政府补贴空间探索两个议题进行了辩论。从各方面来看,IBM Project Debater都是一个令人生畏的对手,并且很多人因为能够做出类似人类的争论而感到惊讶。它甚至在远程医疗这场辩论中,让更多的听众站到了它的一边,而不是倒向Zafrir一边。
这是IBM研究院建立一个“帮助人们在没有黑白分明的答案的时候,基于证据做出决策”的系统这个目标下最新的一个项目。辩论不仅可以帮助我们说服他人接受我们的意见,还可以帮助我们理解并学习其他人的观点。通过以这种方式训练机器,人工智能算法有望在未来能够经常性地帮助人类做出重要决策。IBM Project Debater不仅仅只会搜索它的数据库——其中包含了来自著名报纸和杂志上的数百万篇文章,这是它的语料库,它还拥有能够“与人类共同发现、推理并提出新观点”的人工智能技术。
IBM研究团队创建的算法能够:
虽然IBM Project Debater在辩论技巧方面存在着明显的磕磕绊绊,但是从大多数方面来说,它的首次亮相获得了巨大的成功。因为它从理论过渡到了实际实践,虽然仍然需要进行一些调整,但是它还是会让你好奇接下来会怎样。
通过实施检查和制衡来避免盲目信任
很多人可能很容易对机器过于信任。虽然机器可以在相似的时间范围内以人类无法达到的速度和深度筛选数据,但它的结果并不能免于偏见。机器所能达到的效果受限于它获得的信息。如果用于发展其论证的一些资源包含错误的逻辑,那么该算法就会在辩论中受到该逻辑的影响。能够搜索和总结数以百万计的人类生成的文章并不是一件容易的事,但是Project Debater展现出的实力还不能够代表一种能够以自我生成方式进行推理的超级智能(尽管这种超级智能可能会出现)。
为了避免机器只是回应错误的人类观点——或者被带有自己目的的政府或公司人为操纵——就需要有一个检查和制衡的系统来确保该计划的可信度。
IBM的Project Debater对自然语言处理的进步至关重要
自然语言处理正在许多方面取得进展;然而,Project Debater所展示的是对话和文章形式的松散结构化语言方面的进展。算法能够根据事实支持的小块文本进行组合,而理解论点的所有方面(逻辑、情感等)则是一种更高级别的功能。Project Debater可以分析其对手的论点并且选择适当的应对,这些应对是有事实支持的。这代表了从“呈现信息”到“进行争论”的巨大飞跃。
这项技术的实际应用
IBM Project Debater展示出的很多能力都令人印象深刻,其中之一是它依赖多种人工智能技术的组合去解决很多问题,而且是将这些技术结合到一个解决方案之中。现在IBM 研究院在第一次辩论中取得了成功,该团队需要确定他们可以销售的这种技术的实际应用。这正是IBM Research的董事Arvind Krishna所说的计划:“Project Debater的底层技术将在未来的IBM Cloud和IBM Watson中实现商业化。”
现在人工智能已经超越了玩游戏的范畴,开始学习说服和辩论的艺术;它已经证明自己可以处理人类互动的“灰色区域”和细微差别,而不仅仅是遵循明确的规则。
IBM 研究院的全球人工智能团队的Aya Soffer 表示:“从我们的角度来看,辩论的形式只是一种手段,而不是目的。这是推动技术向前发展的一种方式,也是我们掌握语言的更大战略的一部分。”
这是一个令人印象深刻的首次亮相,看看接下来会发生什么将是非常有趣的。
好文章,需要你的鼓励
这项由索非亚大学INSAIT和苏黎世联邦理工学院共同完成的研究,揭示了大语言模型在数学定理证明中普遍存在的"迎合性"问题。研究团队构建了BrokenMath基准测试集,包含504道精心设计的错误数学命题,用于评估主流AI模型能否识别并纠正错误陈述。
约翰斯·霍普金斯大学研究团队提出了创新的隐私保护AI文本生成方法,通过"控制代码"系统指导AI生成虚假敏感信息来替代真实数据。该方法采用"藏身于众"策略,在医疗法律等敏感领域测试中实现了接近零的隐私泄露率,同时保持了高质量的文本生成效果,为高风险领域的AI应用提供了实用的隐私保护解决方案。
实验室和真实使用测试显示,iPhone Air电池续航能够满足一整天的典型使用需求。在CNET进行的三小时视频流媒体压力测试中,iPhone Air仅消耗15%电量,表现与iPhone 15相当。在45分钟高强度使用测试中表现稍逊,但在实际日常使用场景下,用户反馈iPhone Air能够稳定支撑全天使用,有线充电速度也比较理想。
这项由Reactive AI提出的稀疏查询注意力机制通过减少查询头数量而非键值头数量,直接降低了注意力层的计算复杂度,实现了2-3倍的训练和编码加速。该方法在长序列处理中表现出色,在20万词汇序列上达到3.5倍加速,且模型质量损失微乎其微,为计算密集型AI应用提供了新的优化路径。