麻省理工学院和IBM Watson AI Lab的研究人员创建了一个机器学习模型,用于预测听众在3D空间内的不同位置上会听到什么。
研究人员首先使用这个机器学习模型来了解房间中的任何声音是如何在空间中传播的,按照人们通过声音理解自身所处环境的方式构建3D房间的图景。
在麻省理工学院电气工程与计算机科学系(EECS)研究生Yilun Du共同撰写的一篇论文中,研究人员们展示了如何将类似于视觉3D建模的技术应用于声学领域。
但是他们要面对声音和光线传播的不同之处。例如,由于障碍物、房间的形状和声音的特性,听众处在房间中不同的位置可能会对声音产生非常不同的印象,从而让结果变得难以预测。
为了解决这个问题,研究人员们在他们的模型中建立了声学特征。首先,在所有其他条件都相同的情况下,交换声音源和听众的位置不会改变听众听到的内容。声音还特别受本地条件影响,例如位于听众和声音源之间的障碍物。
Du表示:“到目前为止,大多数研究人员只专注于视觉建模。但是作为人类,我们有多种感知模式。不仅视觉很重要,声音也很重要。我认为这项工作开辟了一个令人兴奋的研究方向,可以更好地利用声音来模拟世界。”
使用这种方法,生成的神经声场(NAF)模型能够对网格上的点进行随机采样,以了解特定位置的特征。例如,靠近门口会极大地影响听众听见房间另一侧声响的内容。
该模型能够根据听众在房间中的相对位置预测听众可能从特定声学刺激中听到的内容。
这篇论文表示:“通过将场景中的声学传播建模为线性时不变系统,NAF学会不断地将发射器和听众的位置映射到神经脉冲响应函数,后者可以应用于任意声音。”“我们证明了NAF的连续性让我们能够在任意位置为听众渲染空间声音,并且可以预测声音在新位置的传播。”
MIT-IBM Watson AI Lab的首席研究员Chuang Gan 也参与了该项目,他表示:“这项新技术可能会为在元宇宙应用程序创建多模态沉浸式体验带来新的机会。”
我们知道不是所有 Reg 读者都会对这个用例感到兴奋。
好文章,需要你的鼓励
施耐德电气以“新质服务+产业向‘新’行”为主题,第六次参会,展示全新升级的“新质服务体系”,围绕创新驱动、生态协同和行业赋能三大核心领域,以全新升级的“新质服务体系”,助力中国产业向高端化、智能化、绿色化迈进。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。