声学领域的机器学习研究可以开启多模态元宇宙

麻省理工学院和IBM Watson AI Lab的研究人员创建了一个机器学习模型，用于预测听众在3D空间内的不同位置上会听到什么。

研究人员首先使用这个机器学习模型来了解房间中的任何声音是如何在空间中传播的，按照人们通过声音理解自身所处环境的方式构建3D房间的图景。

在麻省理工学院电气工程与计算机科学系（EECS）研究生Yilun Du共同撰写的一篇论文中，研究人员们展示了如何将类似于视觉3D建模的技术应用于声学领域。

但是他们要面对声音和光线传播的不同之处。例如，由于障碍物、房间的形状和声音的特性，听众处在房间中不同的位置可能会对声音产生非常不同的印象，从而让结果变得难以预测。

为了解决这个问题，研究人员们在他们的模型中建立了声学特征。首先，在所有其他条件都相同的情况下，交换声音源和听众的位置不会改变听众听到的内容。声音还特别受本地条件影响，例如位于听众和声音源之间的障碍物。

Du表示：“到目前为止，大多数研究人员只专注于视觉建模。但是作为人类，我们有多种感知模式。不仅视觉很重要，声音也很重要。我认为这项工作开辟了一个令人兴奋的研究方向，可以更好地利用声音来模拟世界。”

使用这种方法，生成的神经声场（NAF）模型能够对网格上的点进行随机采样，以了解特定位置的特征。例如，靠近门口会极大地影响听众听见房间另一侧声响的内容。

该模型能够根据听众在房间中的相对位置预测听众可能从特定声学刺激中听到的内容。

这篇论文表示：“通过将场景中的声学传播建模为线性时不变系统，NAF学会不断地将发射器和听众的位置映射到神经脉冲响应函数，后者可以应用于任意声音。”“我们证明了NAF的连续性让我们能够在任意位置为听众渲染空间声音，并且可以预测声音在新位置的传播。”

MIT-IBM Watson AI Lab的首席研究员Chuang Gan 也参与了该项目，他表示：“这项新技术可能会为在元宇宙应用程序创建多模态沉浸式体验带来新的机会。”

我们知道不是所有 Reg 读者都会对这个用例感到兴奋。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

声学领域的机器学习研究可以开启多模态元宇宙

来源：至顶网软件与服务频道

2022

11/03

11:10

分享

点赞

亚马逊推出Alexa网页版：生成式AI助手的新选择

Plaud推出可穿戴AI记录设备NotePin S，CES 2026记者新利器

机器人初创公司推出现实版瓦力机器人及其他伴侣产品

VisIC宣布完成2,600万美元B轮融资

CES 2026 | AMD扩张“边缘统治力” “芯片级异构”塑造汽车、工业边缘应用“新法则”

CES 2026 | NVIDIA新风向: Rubin平台面市 ，系统级“AI工厂”成型，物理AI加速落地

英伟达Vera-Rubin平台推出前六月已淘汰现有AI硬件

英特尔推出首批18A工艺制程的Core Ultra处理器

Rokid在CES 2026推出无屏AI智能眼镜

英伟达物理AI模型为新一代机器人铺路

微软发布 GitHub Copilot 的 C++ 代码编辑工具

至顶AI实验室硬核评测：戴尔Precision 5690移动工作站，部署DeepSeek+LobeChat打造个人超级智能体

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CES 2026 | NVIDIA新风向: Rubin平台面市，系统级“AI工厂”成型，物理AI加速落地