ZD至顶网软件频道消息: 被称为DeepStack的、会玩扑克的人工智能系统,其背后研究人员表示,这是第一个在单挑无限模式下战胜人类职业扑克玩家的算法。这个说法如果属实,将标志着人工智能系统发展的一个重要里程碑。
击败人类职业扑克玩家不同于人工智能过去在智力竞赛节目Jeopardy或者围棋等游戏中战胜人类对手的成功,因为每个玩家都只能掌握游戏状态不完整的一部分,并需要一个导航战术程序,例如基于不对称的信息虚张声势。
DeepStack是University of Alberta和两所捷克大学的研究人员合作的成果,他们在一份新的非同行评审的论文中表示,这是“第一个在单挑无限模式下战胜人类职业扑克玩家的计算机程序。”
新的一页已经展开,卡内基梅隆大学竞技性人工智能扑克团队的研究人员宣布将进行一场由他们的系统和四位职业人类扑克玩家——Jason Les、Dong Kim、Daniel McAulay和Jimmy Chou的对抗赛,这四个人类职业玩家加在一起将在20天内和Libratus玩120,000手单挑无限德州扑克。
Libratus是卡内基梅隆大学开发的Claudico的继任者,它在2015年和同样四位玩家对抗,在超过8万手牌后失利。微软研究院为这场比赛捐赠了10万美元的奖池。
虽然Claudico和DeepStack使用一种称为“反事实遗憾最小化”的技术通过卡片游戏策略进行推理,但DeepStack的制造商说,它的系统“采用了一种完全不同的方法”来处理信息不对称,包括在决定保留哪张牌的时候模拟“直觉”。
Libratus和DeepStack都被描述为使用新奇的方法来实现纳什均衡,卡内基梅隆大学将其定义为“一对战略,每个玩家,只要一个玩家的策略保持不变,就不会有玩家因为改变战略受益。”
DeepStack的研究人员写道,“DeepStack算法试图在这个游戏中计算和使用游戏的低利用率策略,即求解一个近似的Nash均衡。只有在游戏中实际出现的公共树的状态时,DeepStack在游戏过程中计算这个策略。本地计算的能力限制了DeepStack在游戏中推理能力,如果不将游戏中的10项权力抽象的160个决策点减少为14项权力,计算的量对于现有的算法来说就太大了。”
DeepStack接受了来自国际扑克联盟(International Federation of Poker)的33名职业扑克玩家的评估。每个参与者被要求在一个月内参加3000场比赛。
DeepStack研究人员写道,“33位职业玩家总共参加了44,852场比赛,11位玩家完成了所要求的3000场比赛。在所有的比赛中,DeepStack赢得了492 mbb / g(每场比赛的超大盲注)。从零开始有四个标准背离,因此非常引人注目。”
卡内基梅隆大学表示,Libratus采用更快的方法来找到纳什均衡,以及开发更好的终结策略,这是由匹兹堡超级计算中心的Bridges超级计算机支撑实现的。
Sandholm表示,“我们正在疯狂推动超级计算机。”Sandholm表示,Libratus使用了1500万个核心小时的计算,而Claudico只有300万个。
卡内基梅隆大学的比赛今天上午11点在Pittsburgh Rivers Casino开始,将在晚上7点左右结束。
好文章,需要你的鼓励
Salesforce研究团队发布开源工具包MCPEval,基于模型上下文协议(MCP)架构评估AI智能体工具使用性能。该工具突破传统静态测试局限,通过全自动化流程收集详细任务轨迹和协议交互数据,为智能体行为提供前所未有的可视化分析。MCPEval能快速评估MCP工具和服务器,生成综合评估报告,为企业智能体部署提供可操作的改进建议。
清华大学团队推出AnyCap项目,通过轻量级"即插即用"框架解决多模态AI字幕生成缺乏个性化控制的问题。该项目包含模型、数据集和评估基准,能让现有AI系统根据用户需求生成定制化字幕,在不重训基础模型的情况下显著提升控制能力,为AI内容创作的个性化发展奠定基础。
月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)
耶鲁大学团队开发了全球首个AI科学实验设计评估系统ABGEN,测试了18个先进AI模型设计消融实验的能力。研究发现最好的AI系统得分4.11分,仍低于人类专家的4.80分,但在人机协作模式下表现显著改善。研究还发现现有自动评估系统可靠性不足,建立了元评估基准ABGEN-EVAL。这项研究为AI在科学研究中的应用提供了重要评估框架。