百度通过指令研究开发工智能机器人学习英语

百度的人工智能研究人员试图在一个二维迷宫般的世界中教会虚拟机器人英语。这是开发家庭机器人一般智能的第一步。语言对于创建具有人类水平智能的机器至关重要。

中国最大的科技公司之一的百度的人工智能研究人员试图在一个二维迷宫般的世界中教会虚拟机器人英语。

这项研究“为家庭机器人的设想铺平了道路”，一位可以理解其主人发出的命令的聪明管家。该公司的研究人员在arXiv上发布的一篇论文中称，语言对于创建具有人类水平智能的机器至关重要。

根据机器人对自己世界的感知教授语言的做法让它们了解了关于环境的知识，这些知识可以从任务转移到任务——这是一般智能的标志。研究人员们将他们使用的方法类比为父母使用语言教导正在学习走路和说话的婴儿。

在这个被称为XWORLD的模拟2D世界中，代理是婴儿，老师是父母。婴儿代理将环境视为一系列原始像素图像，并由教师给出英文的命令。

该论文表示，“通过探索环境，代理可以同时学习环境的视觉表示、语言的语法和语义，以及如何在环境中自我导航。”

该机器人可以采取四个动作：向上、向下、向左或向右移动。在进程开始时，教师发出自然语言命令，例如“请导航到苹果”。然后启动计时器，代理必须在给定时间内移动到苹果处才能获得正向的奖励。如果没有做到，则会给予负面的反馈。

这可不像看起来一样简单，因为其他水果，例如香蕉、橙子和葡萄也会被添加来以混淆机器人。要想成功，它必须通过在训练期间数以千计的会话进行试错学会每种不同类型水果的单词。

虚拟代理从命令中的单词中找出需要采取的正确动作。

它将这项任务分为四个部分：

处理命令并产生答案的语言模块。
在命令中选出相关的单词的识别模块。
允许代理查看其所处的本地环境的视觉感知模块。
执行移动的动作模块。

例如，假设代理处在香蕉的南部和苹果的东部。如果问“香蕉在哪里？”正确的答案是“在北边”。它必须使用语言模块理解指令，使用其视觉感知模块了解自身与香蕉之间的空间关系，使用识别模块分辨苹果和香蕉的不同，然后使用操作模块回答问题。

虽然机器人在执行导航和识别任务方面平均达到了90％的准确度，可是XWORLD只是一个简单的环境。老师只使用一个很小的、包含104个词汇的词汇表，包括九个地点，四种颜色和四十个不同的对象类。它可以说共十六种类型的句子，四种导航命令和十二种类型的识别类。老师讲的句子长度可以从2到12个字，而机器人只能回答单个的单词。

俞浩南（音译）——这篇论文的合著者之一，同事也是百度的研究科学家——对《The Register》表示，要创造一个功能晚辈的机器人仆人还面临着其他一些挑战。

百度研究专家——俞浩南（音译）

“与两维世界相比，三维世界需要更复杂的视觉感知模块，因为相同的对象从不同的角度看起来可能完全不同。能够在任何情况下可靠地探测对象对于将其连接到相应的语言概念来说至关重要。”

“而且，在三维世界中，代理的视角是局部的：它不能总是观察到整个世界。这需要代理具备一定的存储机制来存储过去的视觉信息，以便它进行导航。”

但是百度希望有一天可以开发视觉和语言组件来创建家庭机器人。

“想像未来，智能机器人从工厂运送到家庭，无需预先编程来执行特定任务。对于不知道如何进行编程的普通人来说，自然语言是训练家庭机器人最自然的方式。”

Hu总结道，“不同的家庭可能对于机器人有不同的特殊需求。例如，有些人需要机器人来煮咖啡。所以他们可以通过给机器人一个类似‘你可以用一匙糖和两汤匙牛奶来给我煮一杯咖啡吗？’这样的指令训练它。因为每个家庭都是使用自然语言并且以独特的方式训练自己的机器人的，所以最终他们会得到一个独特的机器人。”

来源：ZD至顶网软件频道

0赞

好文章，需要你的鼓励

百度通过指令研究开发工智能机器人学习英语

来源：ZD至顶网软件频道

2017

04/05

18:31

分享

点赞

名企齐聚！阿里云携手牧原、UU跑腿、新开普等豫企共绘数智未来

SIGGRAPH｜NVIDIA物理AI“全景”更新！

阿里团队推出DeepPHY：首个专门测试AI视觉模型物理推理能力的综合评估平台

微软8月补丁修复8个关键远程代码执行漏洞

Google Photos经典搜索功能快速恢复方法：替代Ask Photos生成式AI搜索

Dell PowerProtect全面升级，助力企业强化网络韧性与恢复能力

2025世界机器人大会在京圆满闭幕

SiMa.ai发布新一代物理AI系统级芯片正式投产

Ai2发布开源AI模型，让机器人在3D空间"规划"动作

曾经的小型研究实验室如何助力英伟达成为万亿美元公司

Debian 13 "Trixie"正式发布：停止支持x86-32，新增RISC-V架构

VS Code发布聊天检查点功能预防AI对话失误

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球 李彦宏详解AI战略：AI-first战略使百度保持领先地位

文心iRAG和无代码“秒哒”发布：电子牛马来了，还是成群来的

产业丨穹彻智能完成两轮融资，中东石油VC领投

OpenAI API “断供”阴云下国产大模型的危与机

百度CEO李彦宏：文心一言用户数突破2亿，让开发者成为AI时代的主角

有意见 | 百度业绩超预期，AI稳中求进，正是兵强马壮时，只待出击！

《数字经济洞察周报》2023年第29期 | 全球人工智能治理倡议发布

《数字经济洞察周报》2023年第27期 | 腾讯混元大模型发布

办公人的神器，Gamma AI与百度文库文档助手上手体验

有意见 | 百度Q3财报：“我给大家表演个开花！”

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球李彦宏详解AI战略：AI-first战略使百度保持领先地位