ZD至顶网软件频道消息:卡内基梅隆大学(CMU)的人工智能系统在匹兹堡20天的单挑扑克锦标赛上击败四名职业老手。该人工智能(AI)系统名为Libratus AI。Libratus AI具有策略推理功能,其计算能力可处理10的160次方的可能信息集合,该数目是单挑不限注德州扑克游戏具有的信息集合数。
Libratus由计算机科学教授Tuomas Sandholm和计算机科学博士生Noam Brown开发。Libratus在匹兹堡超级计算中心的桥牌计算机里运行。
据Sandholm和Brown称, Libratus的取胜并不是靠运气。Sandholm 表示,“ 顶级AI在不完整信息的情况下进行策略推理的能力已经超过了人类里的佼佼者。”
要击败Dong Kim、Jimmy Chou、Daniel McAulay和Jason Les四个专业牌手,Libratus必须在不知道其他牌的情况下作出决定,同时还要确定对手何时是在使诈。
卡内基梅隆大学表示,Libratus用了匹兹堡超级计算中心桥牌计算机846个计算节点的约600个计算节点的功力。该桥牌计算机的速度是每秒1.35 Petaflop,大约是高端笔记本电脑的7250倍,其内存为274 TB。
Sandholm表示,“每天赛事后,Libratus会用一种元算法分析其他专业牌手在Libratus策略里找到和利用过的漏洞。”
另外,Sandholm表示,“Libratus每天晚上然后会对漏洞按优先程度分级并利用超级计算机修补前三个漏洞,这种做法和以前在扑克游戏里用到的学习方法非常不一样。”
Sandholm称,“在研究人员开发的算法里,典型的做法通常是试图利用对手的弱点。与之相比,Libratus则是每天在算法上修补我们策略里的漏洞。”
据CMU计算机科学院计算机系主任Frank Pfenning介绍,Libratus可用于各种存在不完整信息的领域及对手有意散步非真实信息的领域,诸如商务谈判、军事策略、网络安全和医疗规划等领域都可以受益于自动决策。
Pfenning表示,“电脑若不会用虚张声势的策略就赢不了扑克游戏。开发一个会玩扑克游戏的人工智能系统在科学上是一个巨大的进步,可以在许多领域用得上。想象一下,有朝一日手里智能手机可以在买新车时砍价。当然还有许多别的用法。
“看看这场比赛,玩扑克的程序最终超越了人类最好的玩家,令人振奋。这些成就里的每一个都是我们对智能的理解的重要里程碑。”Pfenning表示。
而CMU在以前Watson和深蓝的开发过程中出过力。Watson是IBM的人工智能系统,曾在电视问答节目Jeopardy!里击败过人类对手。IBM的深蓝曾于1997年击败过国际象棋大师Garry Kasparov。
据悉,人工智能开发是卡耐基梅隆大学优先发展的重要项目。卡耐基梅隆大学称,去年11月获全球高盖茨律师事务所(K&L Gates LLP)1000万美元的捐助,用于建立一个主要研究人工智能伦理的新研究中心。
其时,卡耐基梅隆大学校长Subra Suresh表示,影响下一个世纪的不仅仅是技术。Suresh表示,“人类如何与科技互动、我们如何预测未来及如何应对由我们所做的导致的意想不到的后果、以及如何确保科技用于造福人类(在个人和社会的层面上),所有这些的都将对我们的未来产生重大影响。”
Suresh还表示,卡内基梅隆大学在人工智能、脑科学、网络安全、机器人技术方面在过去和现在都处于领导地位,可以说卡内基梅隆大学拥有探究上述各种话题的“独特地位”。
另据悉,上个月初,名为DeepStack人工智能系统的研究人员称,DeepStack算法是首个击败单挑不限注德州扑克游戏专业玩家的程序。
去年3月,谷歌子公司DeepMind旗下的AI AlphaGo在五场制人机围棋大战里击败九段棋士李世乭。
好文章,需要你的鼓励
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。