至顶网软件频道消息:Facebook Inc.今天发布了一个名为Talk the Walk(路在嘴里)的人工智能数据集,目的是帮助计算机在游览纽约市的过程学习如何与人类更自然地互动。
目前人工智能软件的通信能力相当有限。原因在于,人工神经网络是通过分析样本文本得到统计模式学习语言,这种方法不是特别地有效。
Facebook创建 的Talk the Walk数据集能使人工智能模型以更接近人类的方式学习。Facebook研究人员Douwe Kiela和Jason Weston在博文中提到, “要最终通过人类语言理解建立人工智能,一个策略就是用更自然的方式训练这些系统,将语言与特定环境联系起来。”
他们表示,“和婴儿在看到和触摸到东西开始学会这些东西的名字一样,这种方法有时也叫形象化人工智能,这种在系统环境中进行的方法有利于学习,训练不是通过大型文本数据集(如维基百科)进行。”
研究人员利用Talk the Walk可以将纽约市作为学习环境。Talk the Walk数据集含不同街区的地图、每个块360度图片和样本对话,对话是一个人试图将另一个人引导到某个位置。这些文件附有Facebook研究人员创建的“基准线”用法,可以作为人工智能使用这些信息方法的参考。
据Facebook称,Talk the Walk可以创建逼真的训练场景,机器学习模型可以在这样的场景里打磨他们的语言技能。要进行模拟需要两个人工智能程序。一个是可以看到360度照片的“游客”,而另一个是只有地图的“导游”。基本思想是让两个程序相互通信,在交换了足够的细节后弄清楚如何从一个街区去另一个街区。
这不是一件容易的事。根据The Verge网站介绍,Facebook估计,要利用Talk the Walk数据创建能可靠地生成导航指令的人工智能模型可能需要几年的时间。Facebook希望通过该项目开发的新人工智能功能不仅可用于导航,也可用于其他领域。
Kiela和Weston在博文里称,“我们自己的实验搞清了一些本地化和沟通的次要问题,但我们希望其他人可利用这事更好地理解目标导向的对话、导航、视觉感知和其他挑战。”
好文章,需要你的鼓励
美国多州和部分国家要求特定应用进行年龄验证,澳大利亚已禁止16岁以下用户使用社交媒体。新提案《应用商店问责法案》建议由苹果和谷歌负责统一验证用户年龄,而非各开发者单独验证。这将提升用户体验,用户只需向苹果或谷歌验证一次身份。凭借苹果在隐私保护方面的优势,该方案可扩展至Safari浏览器,为需要年龄验证的网站提供确认信息,而无需透露用户个人数据。
Meta AI首次发布多模态奖励评估基准MMRB2,专门评价AI同时处理文字和图像的能力。该基准包含四大任务类型共4000个专家标注样本,测试23个先进模型。结果显示最佳模型Gemini 3 Pro达75-80%准确率,仍低于人类90%水平。研究揭示AI评价存在视觉偏见等问题,为多模态AI发展提供重要参考标准。
AI编程助手Cursor背后的公司Anysphere宣布收购AI代码审查工具初创公司Graphite。据报道收购价远超Graphite今年早些时候B轮融资时2.9亿美元的估值。此次收购具有战略意义,将AI代码生成与AI代码审查工具相结合,可大幅提升从编写到交付的整体效率。Anysphere估值已达290亿美元,近期频繁收购,上月收购技术招聘公司,今年7月还收购AI客户关系管理初创公司Koala的团队。
快手推出的Kling-Omni是首个真正统一的AI视频制作系统,能够理解文字、图像、视频等多种输入方式,不仅可以生成视频,还能进行复杂编辑和推理。该系统通过三个核心模块的协作,实现了从创意理解到最终输出的全流程自动化,让普通用户也能制作专业水准的视频内容,代表了AI视频技术的重要突破。