至顶网软件频道消息:谷歌研究人员开发了一种应用人工智能的新方法,可以增强视频会议等多项服务。
该研究与已知的“鸡尾酒会效应(cocktail party effect)”有关。所谓“鸡尾酒会效应”,指的是人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音,该效应揭示了人类听觉系统中令人惊奇的能力,即我们可以在噪声中谈话。
同理,谷歌的这项研究可以让人工智能模仿大脑,在一个充满干扰的环境中(例如到处都有其他的人在说话),将注意力集中在一个单独的物体(例如某一个人)的能力。
人工智能模型通常很难以相同的效果调整外部输入,特别是当涉及包含多个声音的音频流时更是如此。这已被证明是语音识别领域的主要挑战,这是当今神经网络的主要应用领域之一。
谷歌表示,其研究人员通过开发一种考虑到不同类型信息的深度学习模型的做法克服了这一障碍:视觉输入。该技术被设计用于处理视频,该人工智能可以分析剪辑中显示的人物的嘴部动作,以使每个人都能与他们发出的声音进行匹配。一旦它建立起了必要的关联关系,模型就可以将单个的语音轨道分开。
教会人工智能有效地完成这项任务并不是一件容易的事。谷歌的研究人员从YouTube上收集了100,000个视频,提取了每个包含每个发言人声音的音频片段,然后将这些片段拼接成具有多个音轨的“合成鸡尾酒会”。该小组使用这个数据集来训练模型,以便在各种条件下都能够将说话者的声音与其他声音分开。
谷歌表示,结果是用户可以点击他们希望听到的人的脸部,并让视频中的其他说话的人自动静音。该技术对这家搜索巨头来说有很多潜在的用途。
对于初学者来说,谷歌可以在YouTube中使用这个人工智能版本,让用户调出剪辑中的一些声音。对于在嘈杂的环境中录制的视频来说,这可能是一个特别大的便利,在这样的环境中有时候会难以听到发言者的声音。
该人工智能也有可能会改善Hangouts和Meet——谷歌的视频会议服务——的用户体验,它能够让会议的参与者更容易地专注于特定的人的语音。该搜索巨头甚至相信这项技术可以应用于医疗领域,例如可以开发出更复杂的助听器。
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
微软研究院提出潜在分区网络(LZN),首次实现生成建模、表示学习和分类任务的真正统一。该框架通过共享高斯潜在空间和创新的潜在对齐机制,让原本独立的AI任务协同工作。实验显示LZN不仅能增强现有模型性能,还能独立完成各类任务,多任务联合训练效果更是超越单独训练。这项研究为构建下一代通用AI系统提供了新的架构思路。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
上海AI实验室开发的VLAC模型让机器人首次具备真实世界自主学习能力。该系统如同给机器人配备智能导师,能实时评估动作效果并从中学习。在四个操作任务测试中,机器人成功率从30%提升至90%,仅需200次练习。技术结合视觉、语言理解和动作生成,支持跨场景适应和人机协作,为家庭服务、医疗护理等领域应用奠定基础。