至顶网软件频道消息:IBM的算法深蓝(Deep Blue)1997年击败了国际象棋冠军加里.卡斯帕罗夫(Garry Kasparov)。2011年,IBM的Watson赢得了游戏节目Jeopardy。不久之后,IBM研究团队已经做好了准备要超越玩游戏的范畴,并开始集思广益人工智能算法的下一个挑战壮举。他们决定创建一个人工智能算法,该算法将在辩论艺术方面进行训练。
在刚刚过去的六月,一小群观众看到IBM Project Debater的首次公开亮相和前两次辩论,当时它与以色列辩手Dan Zafrir和Noa Ovadia分别就提高远程医疗投资和政府补贴空间探索两个议题进行了辩论。从各方面来看,IBM Project Debater都是一个令人生畏的对手,并且很多人因为能够做出类似人类的争论而感到惊讶。它甚至在远程医疗这场辩论中,让更多的听众站到了它的一边,而不是倒向Zafrir一边。
这是IBM研究院建立一个“帮助人们在没有黑白分明的答案的时候,基于证据做出决策”的系统这个目标下最新的一个项目。辩论不仅可以帮助我们说服他人接受我们的意见,还可以帮助我们理解并学习其他人的观点。通过以这种方式训练机器,人工智能算法有望在未来能够经常性地帮助人类做出重要决策。IBM Project Debater不仅仅只会搜索它的数据库——其中包含了来自著名报纸和杂志上的数百万篇文章,这是它的语料库,它还拥有能够“与人类共同发现、推理并提出新观点”的人工智能技术。
IBM研究团队创建的算法能够:
虽然IBM Project Debater在辩论技巧方面存在着明显的磕磕绊绊,但是从大多数方面来说,它的首次亮相获得了巨大的成功。因为它从理论过渡到了实际实践,虽然仍然需要进行一些调整,但是它还是会让你好奇接下来会怎样。
通过实施检查和制衡来避免盲目信任
很多人可能很容易对机器过于信任。虽然机器可以在相似的时间范围内以人类无法达到的速度和深度筛选数据,但它的结果并不能免于偏见。机器所能达到的效果受限于它获得的信息。如果用于发展其论证的一些资源包含错误的逻辑,那么该算法就会在辩论中受到该逻辑的影响。能够搜索和总结数以百万计的人类生成的文章并不是一件容易的事,但是Project Debater展现出的实力还不能够代表一种能够以自我生成方式进行推理的超级智能(尽管这种超级智能可能会出现)。
为了避免机器只是回应错误的人类观点——或者被带有自己目的的政府或公司人为操纵——就需要有一个检查和制衡的系统来确保该计划的可信度。
IBM的Project Debater对自然语言处理的进步至关重要
自然语言处理正在许多方面取得进展;然而,Project Debater所展示的是对话和文章形式的松散结构化语言方面的进展。算法能够根据事实支持的小块文本进行组合,而理解论点的所有方面(逻辑、情感等)则是一种更高级别的功能。Project Debater可以分析其对手的论点并且选择适当的应对,这些应对是有事实支持的。这代表了从“呈现信息”到“进行争论”的巨大飞跃。
这项技术的实际应用
IBM Project Debater展示出的很多能力都令人印象深刻,其中之一是它依赖多种人工智能技术的组合去解决很多问题,而且是将这些技术结合到一个解决方案之中。现在IBM 研究院在第一次辩论中取得了成功,该团队需要确定他们可以销售的这种技术的实际应用。这正是IBM Research的董事Arvind Krishna所说的计划:“Project Debater的底层技术将在未来的IBM Cloud和IBM Watson中实现商业化。”
现在人工智能已经超越了玩游戏的范畴,开始学习说服和辩论的艺术;它已经证明自己可以处理人类互动的“灰色区域”和细微差别,而不仅仅是遵循明确的规则。
IBM 研究院的全球人工智能团队的Aya Soffer 表示:“从我们的角度来看,辩论的形式只是一种手段,而不是目的。这是推动技术向前发展的一种方式,也是我们掌握语言的更大战略的一部分。”
这是一个令人印象深刻的首次亮相,看看接下来会发生什么将是非常有趣的。
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
Patronus AI发布突破性研究,构建了首个系统性AI代理错误评估体系TRAIL,涵盖148个真实案例和21种错误类型。研究发现即使最先进的AI模型在复杂任务错误识别上准确率仅11%,揭示了当前AI代理系统在长文本处理、推理能力和自我监控方面的重大局限,为构建更可靠的AI系统指明方向。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
这项研究首次从理论和实践证明AI模型可通过模仿生物睡眠-学习周期显著提升性能。研究发现AI训练中存在自发的"记忆-压缩循环",并据此开发了GAPT算法,在大语言模型预训练中实现4.8%性能提升和70%表示效率改善,在算术泛化任务中提升35%,为AI发展指出了注重信息整理而非单纯数据扩展的新方向。