至顶网软件频道消息:Facebook Inc.今天发布了一个名为Talk the Walk(路在嘴里)的人工智能数据集,目的是帮助计算机在游览纽约市的过程学习如何与人类更自然地互动。
目前人工智能软件的通信能力相当有限。原因在于,人工神经网络是通过分析样本文本得到统计模式学习语言,这种方法不是特别地有效。
Facebook创建 的Talk the Walk数据集能使人工智能模型以更接近人类的方式学习。Facebook研究人员Douwe Kiela和Jason Weston在博文中提到, “要最终通过人类语言理解建立人工智能,一个策略就是用更自然的方式训练这些系统,将语言与特定环境联系起来。”
他们表示,“和婴儿在看到和触摸到东西开始学会这些东西的名字一样,这种方法有时也叫形象化人工智能,这种在系统环境中进行的方法有利于学习,训练不是通过大型文本数据集(如维基百科)进行。”
研究人员利用Talk the Walk可以将纽约市作为学习环境。Talk the Walk数据集含不同街区的地图、每个块360度图片和样本对话,对话是一个人试图将另一个人引导到某个位置。这些文件附有Facebook研究人员创建的“基准线”用法,可以作为人工智能使用这些信息方法的参考。
据Facebook称,Talk the Walk可以创建逼真的训练场景,机器学习模型可以在这样的场景里打磨他们的语言技能。要进行模拟需要两个人工智能程序。一个是可以看到360度照片的“游客”,而另一个是只有地图的“导游”。基本思想是让两个程序相互通信,在交换了足够的细节后弄清楚如何从一个街区去另一个街区。
这不是一件容易的事。根据The Verge网站介绍,Facebook估计,要利用Talk the Walk数据创建能可靠地生成导航指令的人工智能模型可能需要几年的时间。Facebook希望通过该项目开发的新人工智能功能不仅可用于导航,也可用于其他领域。
Kiela和Weston在博文里称,“我们自己的实验搞清了一些本地化和沟通的次要问题,但我们希望其他人可利用这事更好地理解目标导向的对话、导航、视觉感知和其他挑战。”
好文章,需要你的鼓励
Infinidat发布InfiniBox G4系列最新升级,实现容量翻倍、物理占用空间缩减31%、入门价格降低29%。新款InfiniBox SSA G4 F24仅占11个机架单元,起始容量77TB。混合系统单机架最大有效容量从17.2PBe跃升至33PBe,增幅达92%。系统原生集成S3对象存储协议,支持文件、块和对象存储统一管理,能效比竞品高7倍。
南洋理工大学研究团队开发出Puffin统一模型,首次将AI的图像理解和生成能力融合。通过创新的"用相机思考"方法,将相机参数转换为摄影术语,让AI像摄影师一样理解空间关系。基于400万样本数据集训练,模型在相机角度理解和可控图像生成上均超越专业化模型,并支持空间想象、摄影指导等多元应用,为空间智能AI发展开辟新路径。
微软的MAUI跨平台应用开发框架将通过第三方框架Avalonia获得Linux和浏览器支持。MAUI目前支持Android、iOS、Mac Catalyst和Windows平台,但缺少Linux支持。AvaloniaUI公司正在为MAUI开发新的后端,使用Avalonia渲染器替代原生控件,同时支持WebAssembly在浏览器中运行。该方案预计2026年第一季度提供预览版本。
KAIST研究团队开发出MPO多模态提示优化框架,首次实现同时优化文字和视觉提示,让AI能够像人类一样接收多种信息类型。该技术在10个数据集上平均性能提升6.8%,同时节省42%评估成本,为医疗影像、自动驾驶、药物研发等领域提供了新的AI交互方式,标志着从纯文字交流向多模态交流的重大突破。