至顶网软件频道消息: DeepMind技术公司已经开发出多种人工智能方案,其不仅击败了全球最顶尖的围棋选手,同时亦在数十种传统视频游戏当中创下新纪录。如今,这家由谷歌持有的技术厂商开始着眼于更为复杂的发展方向:指导AI如何行走。
DeepMind公司这一项目的建立思路并非创建一套步行AI,而是立足于动作模拟为机器学习技术开发新的测试工具。根据DeepMind研究团队发表的博文,项目的最终目标在于打造出"灵活自然的动作行为,确保其具有复用能力并适应任务解决过程中的各类需求。"
围棋等项目虽然本身相当复杂,但却具有明确的目标,因此对人工智能方案而言相对易于处理; 在另一方面,DeepMind团队解释称,教导AI如何完成跳跃或者反向翻转等身体动作则要困难得多。该团队指出,"在为人工系统进行运动技能传授时,对复杂行动的准确描述通常是其中最为困难的部分。"
DeepMind公司今天发布了三份研究论文,具体探讨了其用于教导AI处理运动任务的实际方法。其中第一篇论述了如何通过给予"前进"这样一项简单目标帮助AI学习如何超过障碍。其中一部分AI代理采用与人类相似的双足运动模式,但也有一部分模拟简单的四足动物运动模式。
DeepMind团队表示,"具体来讲,我们训练出多种模拟代理方案,以便在不同的地形之上加以改进,保证其能够根据实际情况进行跳跃、转变与蹲伏。结果显示,我们的代理能够在无需接收具体指令的前提下发展出复杂的技能组合。我们利用这种方法训练自己的多部位模拟肢体系统。"
在另一篇论文当中,DeepMind公司则展示了一套可通过观看运动捕捉数据学习人类行动的AI方案。这套AI模型能够完成"与人类非常相近"的运动效果,且已经学会如何完成多种不同的行动类型--具体包括跌倒后起身以及走上楼梯。
而在最后一篇论文中,DeepMind研究团队则拿出一套能够观察多种不同动作并预测身体在两个动作间过渡变化的AI方案。举例来说,该AI能够观察站立的人与屈体的人,并预测肢体在两个动作间过渡时的具体变化(如文首图所示)。
DeepMind公司所展示的每套AI代理方案都仅能模拟相对简单的动作,但其出现确实证明了研究人员正致力于将AI由简单纯粹的数据世界推向更加复杂且多样的现实世界。DeepMind研究团队在其论文中提及的部分技术最终可用于构建更为复杂的AI代理,且确保相关方案无需任何手动调整。
DeepMind研究团队指出,其未来的工作将主要集中在指导以上方案"在更为复杂的情况下协调更为广泛的动作范围"。换句话来说,AI方案将由行走到奔跑逐步完成学习与改进。
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。