Groq 与 PlayAI 宣布合作,通过 Groq 的高速推理平台推出先进的文本转语音模型 Dialog。这一合作结合了 PlayAI 在语音 AI 方面的专业知识和 Groq 的专业处理基础设施,创造出了据称是目前最自然、响应最快的文本转语音系统之一。该系统不仅支持英语和阿拉伯语,还采用了创新的"自适应语音上下文器"技术,能够实现更自然的对话流。
Google 宣布将其高清语音接口 Chirp 3 添加到 Vertex AI 开发平台。Chirp 3 支持 31 种语言的 8 种新声音,可用于构建语音助手、创建有声读物等。Google 强调 AI 发展是一场马拉松,短期内不会成为解决一切问题的灵丹妙药,但未来十年将带来重大变革。
AI 公司 Sesame 开源了支持其逼真语音助手 Maya 的基础模型。这个名为 CSM-1B 的 10 亿参数模型采用 Apache 2.0 许可证,可用于商业用途。该模型能从文本和音频输入生成"RVQ 音频编码",使用了 Meta 的 Llama 模型作为主干。Sesame 提醒开发者谨慎使用,避免未经同意复制他人声音或制作虚假内容。
消费者报告研究发现,六家提供人工智能语音克隆软件的公司中,有四家未能提供有效的防滥用措施。这项技术虽有合法用途,但也容易被滥用于欺诈等非法行为。报告呼吁企业加强安全保障,并建议加强监管以保护消费者权益。
一段令人惊叹又让人不安的AI语音演示在网上引发热议。2013年,斯派克·琼斯的电影《她》描绘了一个人们与AI语音助手建立情感联系的未来。近12年后,AI初创公司Sesame发布的新对话语音模型使这一虚构的设想更接近现实,许多用户对此感到既着迷又不安。
Podcastle是一款播客录制和编辑平台,现已推出名为Asyncflow v1.0的AI文本转语音模型,并为开发者提供API接口,方便其在应用中直接集成该模型。新模型支持超过450种AI语音,能够为文本进行朗读。该公司表示,其技术和模型的训练及推理成本较低,使其在竞争中具备优势。Podcastle的创始人Arto Yeritsyan表示,尽管开发成本高昂,但得益于最近的大型语言模型进展,Podcastle终于能够在不需要大量数据的情况下构建高质量的语音模型。
人工智能初创公司Zyphra推出了两款开源文本转语音模型,声称只需5秒样本音频就能克隆声音。测试显示,使用不到30秒的录音即可生成逼真效果。这项技术虽然存在滥用风险,但也有积极应用前景,如帮助失声者重获声音。该模型采用开源许可证发布,为语音合成领域带来新的可能。
目前,虚拟制作行业发展已经从以CG、语音合成的计算机技术为主的阶段,经历5G、人工智能技术突破,到现在,进入高速发展的新阶段,虚拟制作的应用领域逐步拓宽,全方面渗透进入各个行业。