语音合成文章列表第1页-至顶网频道

语音合成关键字列表

AI语音深度伪造诈骗攻击机制揭秘

安全研究机构Group-IB详细分析了AI语音克隆诈骗的实施流程：攻击者首先收集目标人物仅需3秒的语音样本，利用AI语音合成引擎生成伪造语音，配合号码伪装技术发起诈骗电话。攻击可采用预录脚本或实时语音转换，冒充亲属、上司等紧急求助。研究显示此类攻击易于规模化复制且难以识别，建议采用预设暗号验证和回拨确认等双重防护措施。

Azure AI Speech升级：仅需几秒音频即可生成逼真语音克隆

微软升级了Azure AI Speech服务，用户仅需几秒钟的语音样本即可快速生成逼真的语音复制品。该个人语音功能于2024年5月21日正式发布，采用名为"DragonV2.1Neural"的零样本文本转语音模型，支持100多种语言。微软表示新版本在语音自然度、韵律稳定性和发音准确性方面都有显著提升，可用于定制聊天机器人语音、视频配音等应用。尽管微软要求用户遵守使用政策并获得原说话者同意，但该技术仍可能被恶意使用。

人工智能

语音合成

语音优化

2025-03-27

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

Groq 与 PlayAI 宣布合作，通过 Groq 的高速推理平台推出先进的文本转语音模型 Dialog。这一合作结合了 PlayAI 在语音 AI 方面的专业知识和 Groq 的专业处理基础设施，创造出了据称是目前最自然、响应最快的文本转语音系统之一。该系统不仅支持英语和阿拉伯语，还采用了创新的"自适应语音上下文器"技术，能够实现更自然的对话流。

人工智能

语音合成

高清语音模型

2025-03-18

Google 在 Vertex AI 平台上添加其高清语音模型 Chirp 3

Google 宣布将其高清语音接口 Chirp 3 添加到 Vertex AI 开发平台。Chirp 3 支持 31 种语言的 8 种新声音,可用于构建语音助手、创建有声读物等。Google 强调 AI 发展是一场马拉松,短期内不会成为解决一切问题的灵丹妙药,但未来十年将带来重大变革。

人工智能

语音合成

开源创新

2025-03-14

创造出病毒级虚拟助手 Maya 的初创公司 Sesame 发布基础 AI 模型

AI 公司 Sesame 开源了支持其逼真语音助手 Maya 的基础模型。这个名为 CSM-1B 的 10 亿参数模型采用 Apache 2.0 许可证，可用于商业用途。该模型能从文本和音频输入生成"RVQ 音频编码"，使用了 Meta 的 Llama 模型作为主干。Sesame 提醒开发者谨慎使用，避免未经同意复制他人声音或制作虚假内容。

人工智能

语音合成

安全漏洞

2025-03-12

消费者报告指出 AI 语音克隆安全措施漏洞百出

消费者报告研究发现,六家提供人工智能语音克隆软件的公司中,有四家未能提供有效的防滥用措施。这项技术虽有合法用途,但也容易被滥用于欺诈等非法行为。报告呼吁企业加强安全保障,并建议加强监管以保护消费者权益。

人工智能

语音合成

实时交互

2025-03-05

令人惊叹又不安的超逼真 AI 语音演示

一段令人惊叹又让人不安的AI语音演示在网上引发热议。2013年，斯派克·琼斯的电影《她》描绘了一个人们与AI语音助手建立情感联系的未来。近12年后，AI初创公司Sesame发布的新对话语音模型使这一虚构的设想更接近现实，许多用户对此感到既着迷又不安。

人工智能

语音合成

降本增效

2025-03-04

Podcastle 推出支持超过 450 种 AI 语音的文本转语音模型

Podcastle是一款播客录制和编辑平台，现已推出名为Asyncflow v1.0的AI文本转语音模型，并为开发者提供API接口，方便其在应用中直接集成该模型。新模型支持超过450种AI语音，能够为文本进行朗读。该公司表示，其技术和模型的训练及推理成本较低，使其在竞争中具备优势。Podcastle的创始人Arto Yeritsyan表示，尽管开发成本高昂，但得益于最近的大型语言模型进展，Podcastle终于能够在不需要大量数据的情况下构建高质量的语音模型。