谷歌开发出一种能够模仿大脑“鸡尾酒会效应”的人工智能

谷歌研究人员开发了一种应用人工智能的新方法，可以增强视频会议等多项服务。

至顶网软件频道消息：谷歌研究人员开发了一种应用人工智能的新方法，可以增强视频会议等多项服务。

该研究与已知的“鸡尾酒会效应（cocktail party effect）”有关。所谓“鸡尾酒会效应”，指的是人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音，该效应揭示了人类听觉系统中令人惊奇的能力，即我们可以在噪声中谈话。

同理，谷歌的这项研究可以让人工智能模仿大脑，在一个充满干扰的环境中（例如到处都有其他的人在说话），将注意力集中在一个单独的物体（例如某一个人）的能力。

人工智能模型通常很难以相同的效果调整外部输入，特别是当涉及包含多个声音的音频流时更是如此。这已被证明是语音识别领域的主要挑战，这是当今神经网络的主要应用领域之一。

谷歌表示，其研究人员通过开发一种考虑到不同类型信息的深度学习模型的做法克服了这一障碍：视觉输入。该技术被设计用于处理视频，该人工智能可以分析剪辑中显示的人物的嘴部动作，以使每个人都能与他们发出的声音进行匹配。一旦它建立起了必要的关联关系，模型就可以将单个的语音轨道分开。

教会人工智能有效地完成这项任务并不是一件容易的事。谷歌的研究人员从YouTube上收集了100,000个视频，提取了每个包含每个发言人声音的音频片段，然后将这些片段拼接成具有多个音轨的“合成鸡尾酒会”。该小组使用这个数据集来训练模型，以便在各种条件下都能够将说话者的声音与其他声音分开。

谷歌表示，结果是用户可以点击他们希望听到的人的脸部，并让视频中的其他说话的人自动静音。该技术对这家搜索巨头来说有很多潜在的用途。

对于初学者来说，谷歌可以在YouTube中使用这个人工智能版本，让用户调出剪辑中的一些声音。对于在嘈杂的环境中录制的视频来说，这可能是一个特别大的便利，在这样的环境中有时候会难以听到发言者的声音。

该人工智能也有可能会改善Hangouts和Meet——谷歌的视频会议服务——的用户体验，它能够让会议的参与者更容易地专注于特定的人的语音。该搜索巨头甚至相信这项技术可以应用于医疗领域，例如可以开发出更复杂的助听器。

来源：至顶网软件频道

0赞

好文章，需要你的鼓励

谷歌开发出一种能够模仿大脑“鸡尾酒会效应”的人工智能

来源：至顶网软件频道

2018

04/16

17:59

分享

点赞

Station F加速器助力欧洲AI创业公司崛起

橡树岭国家实验室与克利夫兰诊所联合模拟聚变反应堆材料化学

Even Realities完成1.5亿美元融资，估值达10亿美元

数据中心会造成空气污染吗？关键在于电力来源

Day-0支持｜摩尔线程完成美团LongCat-2.0极速适配

亚马逊Mechanical Turk停止接受新用户，众包平台走向终结

微软推出Memora，致力于解决AI智能体的记忆难题

SGE计划在英国部署14座BWRX-300小型模块堆，总装机容量达4.2吉瓦

特斯拉在迈阿密划定Robotaxi小范围服务区，得克萨斯扩张仍受阻

Luxonis完成1400万美元融资，为智能自动化打造视觉感知层

.NET 8 与 .NET 9 即将停止支持，微软建议升级至 .NET 10

苹果供应商塔塔电子遭黑客攻击，iPhone 18 Pro核心机密外泄

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: