中国最大的科技公司之一的百度的人工智能研究人员试图在一个二维迷宫般的世界中教会虚拟机器人英语。
这项研究“为家庭机器人的设想铺平了道路”,一位可以理解其主人发出的命令的聪明管家。该公司的研究人员在arXiv上发布的一篇论文中称,语言对于创建具有人类水平智能的机器至关重要。
根据机器人对自己世界的感知教授语言的做法让它们了解了关于环境的知识,这些知识可以从任务转移到任务——这是一般智能的标志。研究人员们将他们使用的方法类比为父母使用语言教导正在学习走路和说话的婴儿。
在这个被称为XWORLD的模拟2D世界中,代理是婴儿,老师是父母。婴儿代理将环境视为一系列原始像素图像,并由教师给出英文的命令。
该论文表示,“通过探索环境,代理可以同时学习环境的视觉表示、语言的语法和语义,以及如何在环境中自我导航。”
该机器人可以采取四个动作:向上、向下、向左或向右移动。在进程开始时,教师发出自然语言命令,例如“请导航到苹果”。然后启动计时器,代理必须在给定时间内移动到苹果处才能获得正向的奖励。如果没有做到,则会给予负面的反馈。
这可不像看起来一样简单,因为其他水果,例如香蕉、橙子和葡萄也会被添加来以混淆机器人。要想成功,它必须通过在训练期间数以千计的会话进行试错学会每种不同类型水果的单词。
虚拟代理从命令中的单词中找出需要采取的正确动作。
它将这项任务分为四个部分:
例如,假设代理处在香蕉的南部和苹果的东部。如果问“香蕉在哪里?”正确的答案是“在北边”。它必须使用语言模块理解指令,使用其视觉感知模块了解自身与香蕉之间的空间关系,使用识别模块分辨苹果和香蕉的不同,然后使用操作模块回答问题。
虽然机器人在执行导航和识别任务方面平均达到了90%的准确度,可是XWORLD只是一个简单的环境。老师只使用一个很小的、包含104个词汇的词汇表,包括九个地点,四种颜色和四十个不同的对象类。它可以说共十六种类型的句子,四种导航命令和十二种类型的识别类。老师讲的句子长度可以从2到12个字,而机器人只能回答单个的单词。
俞浩南(音译)——这篇论文的合著者之一,同事也是百度的研究科学家——对《The Register》表示,要创造一个功能晚辈的机器人仆人还面临着其他一些挑战。
百度研究专家——俞浩南(音译)
“与两维世界相比,三维世界需要更复杂的视觉感知模块,因为相同的对象从不同的角度看起来可能完全不同。能够在任何情况下可靠地探测对象对于将其连接到相应的语言概念来说至关重要。”
“而且,在三维世界中,代理的视角是局部的:它不能总是观察到整个世界。这需要代理具备一定的存储机制来存储过去的视觉信息,以便它进行导航。”
但是百度希望有一天可以开发视觉和语言组件来创建家庭机器人。
“想像未来,智能机器人从工厂运送到家庭,无需预先编程来执行特定任务。对于不知道如何进行编程的普通人来说,自然语言是训练家庭机器人最自然的方式。”
Hu总结道,“不同的家庭可能对于机器人有不同的特殊需求。例如,有些人需要机器人来煮咖啡。所以他们可以通过给机器人一个类似‘你可以用一匙糖和两汤匙牛奶来给我煮一杯咖啡吗?’这样的指令训练它。因为每个家庭都是使用自然语言并且以独特的方式训练自己的机器人的,所以最终他们会得到一个独特的机器人。”
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。