在人类和机器正在进行的比拼中,机器又赢下一局:一个人工智能团队彼此协作,在视频游戏Dota 2的多玩家在线战斗竞技场(MOBA)中成功击败了五名半职业人类玩家。
Sam Altman
这个人工智能团队被称为OpenAI Five,它们由OpenAI开发,OpenAI是伊隆.马斯克和Y Combinator的总裁Sam Altman创立的人工智能研究实验室。
OpenAI的代理之前在一对一的比赛中击败了一些顶级人类玩家,但这是第一次由代理团队击败Dota 2排名超过99.95%玩家的人类玩家。团队模式更难,因为这种模式需要更多协作和长期规划。
OpenAI的联合创始人兼首席技术官Greg Brockman在推特上将这一天的游戏称为 “情感搭车”。他补充表示:“我们为OpenAI团队感到非常自豪,并且非常高兴在我们为国际(Dota 2锦标赛)做准备时继续改进这个系统。”
像Dota 2这样的游戏是挑战人工智能系统并测试其智能水平的最佳方式之一。像OpenAI Five这样的系统通过分析数千场之前比赛中的大量数据来学习如何玩这个游戏。
这项努力似乎没什么用处,但人工智能研究人员认为,他们最终能够用训练人工智能玩游戏的方法训练算法来解决某些复杂的现实世界问题。例如,像DeepMind这样的公司的科学家们已经在考虑如何利用人工智能来帮助缓解气候变化并检测癌症。
好文章,需要你的鼓励
亚利桑那州立大学的研究团队开发了RefEdit,这是一种新型图像编辑AI系统,能够准确理解和处理指代表达(如"中间那个人"、"右边的猫")。通过创建RefEdit-Bench基准测试,研究者们证明现有模型在多物体场景中表现不佳。他们设计了一种创新的数据生成流程,仅用2万样本就训练出的RefEdit模型超越了使用数百万样本训练的大型模型。这一突破使AI图像编辑在复杂场景中更加精确和实用。
这项研究提出了Critique-GRPO,一种创新的在线强化学习框架,将自然语言批评与数字反馈相结合,克服了传统仅用数字反馈的三大局限:性能瓶颈、自我反思效果有限和顽固性失败。实验表明,该方法使大语言模型能够从错误中学习并改进,在八项数学和通用推理任务中,将Qwen2.5-7B和Qwen3-8B模型的平均通过率分别提高了约4.5%和5%,超越了包括那些引入专家示范的方法。研究还揭示,高熵探索和长回答并不总是最有效的学习方式,质量更重要。这一方法为大语言模型的自我提升能力开辟了新路径。
这篇研究介绍了"量化LLM评价者",一个创新框架,能使大型语言模型(LLM)在评估其他AI输出时更接近人类判断。由麻省理工和Adobe联合研发的这一方法,将评估过程分为两个阶段:先让LLM生成文本评价,再用轻量级机器学习模型将这些评价转化为更准确的数值评分。研究提出了四种评价者模型,适用于不同评估场景,实验表明它们不仅能显著提高评分准确性,还比传统微调方法更节省计算资源。这一框架特别适合人类反馈有限的场景,为AI评估领域开辟了高效且可解释的新路径。
这项研究由IDEA、华南理工大学和北京大学联合开发的Rex-Thinker系统,通过模仿人类的链式思考方式来解决物体指代问题。与传统直接输出边界框的方法不同,它采用规划-行动-总结的三步骤推理,使AI能像人类一样逐步分析图像中的候选物体,并在找不到匹配物体时拒绝作答。通过构建90,824样本的HumanRef-CoT数据集和两阶段训练方法,系统在精度、可解释性和泛化能力上均取得了显著进步。