日前,被誉为数据挖掘领域历史最悠久、规模最大的国际顶级学术会议ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)正于美国华盛顿召开。会上,火山语音多篇论文被KDD 2022 Research track接收并发表,同时创新性地提出基于语音合成来有效攻击语音识别系统(Audio Adversarial Attack)的新技术路径,用于高效并准确发现语音安全领域的新漏洞。
伴随机器学习在语音识别上的技术突破,形式多样的语音助手已成为人们日常生活中必不可少的工具,尤其在一些特定场景下,语音助手可以通过识别语义信息帮助人们完成例如购物、转账、缴费、邮件处理等简单动作,便利正逐渐渗透到生活的方方面面。
但据近些年的研究表明:由于神经网络的冗余特性可以让攻击者在输入中加入人类无法识别的微小扰动,从而误导原本训练好的模型,甚至可以给出攻击者想要获得的输出结果,着实有些惊悚,例如:

明明听上去是:Send a greeting email to Tom?
但经过语音识别系统之后的输出竟然是“Transfer one million dollars to Jerry.”
人们不禁灵魂发问语音识别究竟还能否被信任?
不可否认,这种安全隐患正逐渐成为限制语音识别系统大规模应用的关键因素之一,所以研究如何设计高效的攻击方案发现语音识别系统的弱点和漏洞,进而缓解消除上述语音安全隐患,已成为学术界和工业界共同关注的热点问题。

基于此,火山语音经文献调研发现:现有的语音攻击主要源于一种良性语音依赖假设(上述图a),即Audio dependent attack,这种假设要求对抗语音样本(Adversarial audio)是基于已有的干净语音(Benign audio)上添加扰动产生。但在现实场景中,这种干净语音有可能不存在(比方说,说话人可能根本没有发出声音)或者无法包含特定的语义信息(例如,说话人在交谈中没有说出某句话),如果遭遇上述情况,现有的方案将难以被应用:对已有干净语音的依赖性极大限制了语音攻击的广泛性,造成了判断的不准确。
对此火山语音团队提出了一种全新的“无中生有式”对抗语音攻击方案(上述图b),所谓“无中生有”是指不再依赖已有的一段干净语音,而是采用语音合成模型直接生成包含特定语义信息的语音对抗样本,避免对干净语音(Benign audio)的依赖,改变过去通过“已有”来判断的思路,进而降低安全漏洞的误判率。目前该方案的介绍论文(https://dl.acm.org/doi/10.1145/3534678.3539268)已被KDD 2022接收并发表。

方法概述
如图所示,火山语音团队提出的Speech Synthesising Attack (SSA),可以合成文首所示包含“Send a greeting email to Tom”的语音,同时欺骗ASR系统翻译为欺骗目标“Transfer one million dollars to Jerry”。如果要实现这样一个挑战性任务,两个重要的条件需要同时被考虑到,分别是:ASR系统需要最终转录成任意设定的欺骗目标,以及合成语音需要足够自然,让人类无法轻易觉察到该语音为对抗攻击样本。

为此团队引入基于Conditional Variational Auto-Encoder的VITS模型作为语音合成模块,通过优化Audio Style Vector z从而达成以上两个重要前提,具体的loss如公式所示:

为达成条件一,团队使用Connectionist Temporal Classification (CTC) loss来迫使ASR系统输出设定的目标文本(target text)。为达成条件二,考虑到VITS模型训练时z服从标准高斯分布,作者对z做出如下约束:

为了使对抗语音样本合成更加高效,火山语音团队还提出了一种Adaptive Sign Gradient Descent的优化策略,整体算法流程如下图所示:

实验结果分析
火山语音团队在Audio Mnist、CommonVoice以及LibriSpeech三个数据集上分别对算法进行了验证。实验结果(如下表所示)显示:相比之前的语音对抗攻击算法,新范式在攻击成功率(Success rate) 上表现出显著优势,已经达到过去方法的两倍左右。

同时团队还分析了此种办法带来优势的原因,图b为传统方法在一段干净语音(图a)上加载噪声的攻击方式。可以看出,噪声的加噪受限于原始语音波形,但基于SSA产生的语音对抗样本,虽然包含的语义信息与图a&b一致,但对比之下波形差异很大,这说明SSA在产生对抗语音样本时相较于已有方法,能够更加直观发现安全漏洞不易被误导,预期将会成为一种发现语音识别系统安全漏洞的方案被广泛采用。

除上述论文外,火山语音团队推出的另外一篇论文“重要性优先的策略蒸馏”(Importance Prioritized Policy Distillation)也成功被KDD 2022接收并发表。
论文地址: https://dl.acm.org/doi/10.1145/3534678.3539266

该论文主要解决了强化学习模型蒸馏过程中Data bias问题。在传统的策略蒸馏(Policy distillation)方法中,每一个Frame(State-Action pair, 状态&动作组合)对于学生策略(Student policy)的重要性在训练中是被假设为均匀的。然而在强化学习任务中,每个Frame上的Action选择实际上是对应着不一样的奖励(Reward)。
为了自适应的根据Reward收益进行Policy Distillation训练,火山语音团队提出了一种基于香农熵(Shannon Entropy)对强化学习任务Frame importance进行估计的方法,并基于Atari游戏任务验证了该方法在策略蒸馏以及压缩(Policy compression)任务上的有效性。这种基于重要性优先的策略蒸馏方法将会更好地服务于强化学习模型在部署时的模型压缩任务,从而助力在各个强化学习场景下的实际落地。
火山语音,作为字节跳动 AI Lab Speech & Audio 智能语音与音频团队,长期以来面向字节跳动内部各业务线以及火山引擎ToB行业与创新场景,提供全球领先的语音AI技术能力以及卓越的全栈语音产品解决方案。目前团队的语音识别和语音合成覆盖了多种语言和方言,多篇论文入选各类AI 顶级会议,技术能力已成功应用到抖音、剪映、番茄小说等多款产品上,并通过火山引擎开放给外部企业。
好文章,需要你的鼓励
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
AI代码编辑器开发商Cursor完成23亿美元D轮融资,估值达293亿美元。Accel和Coatue领投,Google、Nvidia等参与。公司年化收入已突破10亿美元。Cursor基于微软开源VS Code打造,集成大语言模型帮助开发者编写代码和修复漏洞。其自研Composer模型采用专家混合算法,运行速度比同等质量模型快四倍。公司拥有数百万开发者用户,将用新资金推进AI研究。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。