ChatGPT高级语音模式的创造者Alexis Conneau离开OpenAI后,创办了音频AI初创公司WaveForms AI,并获得由a16z领投的4000万美元种子轮融资。该公司专注于训练自有音频大语言模型,计划于2025年推出与OpenAI、谷歌竞争的AI音频产品。Conneau深受电影《Her》启发,致力于开发具备情感感知能力的语音AI,同时警惕AI伴侣化带来的社会问题,强调技术应服务于人而非取代人际关系。
Vibe公司推出可穿戴AI设备Vibe Dot,专为企业专业人士设计。该设备搭载五个麦克风,支持最远16英尺的收音范围,可实时捕捉多人对话并同步至Vibe AI应用,自动生成结构化摘要,构建企业知识库。设备续航约30小时,支持语音命令触发AI代理执行任务,兼容Claude、OpenAI Codex等第三方AI。售价199美元,核心功能免费使用。
OpenAI近日推出三款面向开发者的实时语音模型,分别专注于不同应用场景。GPT-Realtime-2基于GPT-5级别能力,支持在实时对话中进行推理、工具调用及中断处理;新翻译语音模型支持70种输入语言和13种输出语言;GPT-Realtime-Whisper则是低延迟流式语音转文字模型,可实时生成字幕或会议记录。三款模型均已纳入OpenAI的Realtime API,开发者可在Playground中进行测试体验。
谷歌宣布对Google Home进行重大更新,早期访问用户已可使用Gemini 3.1语音助手,该模型支持复杂多步骤语音指令的高级推理。Ask Home功能将扩展至网页端,支持对话式查看摄像头历史记录和创建自动化任务。摄像头体验也得到改善,包括更流畅的时间轴浏览、10秒跳转按钮及新滑动控制。此外,人脸识别准确性提升,AI事件标签描述更加简洁清晰。
NordVPN为其Chrome浏览器扩展推出AI语音检测工具,可实时分析网页音频,判断声音来自真人还是AI生成。检测结果以绿、黄、红三色标注,分别对应人类声音、疑似AI和确认AI语音。该工具仅分析声学特征,不记录、存储或解读对话内容,也不收集用户身份及浏览数据。目前该功能仅限Chrome扩展,其他浏览器的支持时间尚未公布。
硬件公司Nothing近日推出AI语音听写工具Essential Voice,可在任意应用中将语音转为格式化文字,自动去除"嗯""啊"等语气词,并支持自定义语音快捷方式,例如将"我的地址"映射为完整住址。该功能目前已在Phone (3)上线,支持超过100种语言,并可直接进行跨语言翻译。后续还将引入基于应用场景的风格定制功能。Nothing是少数实现系统级语音听写集成的厂商之一。
谷歌周一低调发布离线语音输入应用"Google AI Edge Eloquent",基于Gemma自动语音识别模型,可实现实时转录并自动过滤"嗯""啊"等填充词。应用提供关键要点、正式、简短、详细等文本转换选项,支持本地处理模式,可导入Gmail关键词并添加自定义词汇。目前仅支持iOS,未来将推出Android版本。
微软推出三款自主开发的商业AI模型:MAI-Transcribe-1语音转录、MAI-Voice-1语音生成和MAI-Image-2图像创建,现已在Microsoft Foundry和MAI Playground平台上线。这些模型运行速度极快且价格极具竞争力,标志着微软意图减少对外部模型特别是OpenAI的依赖,强化自身技术实力。分析师认为,这并非替换合作伙伴,而是降低依赖性并增强控制力,竞争实际发生在架构层面而非单一模型层面。
谷歌于周一发布了Google AI Edge Eloquent应用,这是一款支持离线工作的AI语音识别工具。该应用能够将不连贯的语音转换为可直接使用的文本,几乎无需编辑。应用采用设备端Gemma模型自动优化文本,消除"嗯"、"啊"等填充词和句中修正。支持完全离线操作,可连接谷歌账户构建个人词典,或连接云端获得更强的文本处理能力。应用界面简洁,包含录音、历史、词典和设置功能,且完全免费使用。
企业正重新拥抱电话客服,得益于AI技术的进步。云通信公司Twilio通过模块化架构和模型中立性策略,帮助企业将语音AI集成到客服中心。菲律宾航空等案例显示,语音AI不仅将平均等待时间降至1分钟以下,月度客服成本下降30%,还能将传统成本中心转变为收入引擎。尽管面临数据孤岛和深度伪造等挑战,语音AI正通过高级转录、翻译和交互功能推动更深层次的客户参与。
谷歌本周一悄然发布了名为"Google AI Edge Eloquent"的离线优先语音听写应用,与Wispr Flow等竞品展开竞争。该应用免费下载,基于Gemma的语音识别模型支持离线工作。应用可实时转录语音,暂停后自动过滤"嗯"、"啊"等填充词并润色文本。提供"要点"、"正式"、"简短"、"详细"等转换选项。支持从Gmail导入关键词和术语,可添加自定义词汇,具备转录历史记录和搜索功能。
谷歌最新发布的Home应用更新显著提升了Gemini AI助手的智能家居控制能力。用户现在可以用更自然的描述性语言控制设备,比如说"海洋的颜色"来调节灯光色彩,或直接要求"预热智能烤箱至350度"。Gemini在设备识别方面也更加精准,能够区分"台灯"和"电灯"等相似设备。此外,儿童监管账户也可使用该功能,Live Search摄像头支持和交互式新闻摘要功能同步推出。
微软AI首席执行官苏莱曼表示,公司正专注于追求以商业和生产力为核心的超级智能。新发布的MAI-Transcribe-1转录模型支持25种语言,能在嘈杂环境下进行会议转录、视频字幕和呼叫中心分析,GPU成本仅为同类模型的一半。该模型现已通过微软基础平台和AI游乐场商用化。微软采用10人小团队开发策略,旨在为企业和消费者提供实用的人工智能助手。
亚马逊Alexa Plus语音助手本周开始支持外卖订餐服务,用户可通过Uber Eats和Grubhub下单。该功能需要Echo Show 8或更大屏幕设备支持,提供实时对话式点餐体验。用户可询问本地餐厅信息、浏览菜单并实时调整订单。Alexa Plus可通过Amazon Prime订阅获得,或单独订阅使用。
作者在宠物狗占据膝盖空间的情况下,仅使用单手鼠标和语音输入,成功开发了两个复杂的苹果应用程序。通过AI辅助的"氛围编程"方式,开发流程从传统的编辑-构建-测试-调试转变为指令-构建-测试-引导。作者发现大部分开发时间都在终端聊天界面中度过,几乎不需要使用传统IDE的编辑和调试功能,这让他质疑传统集成开发环境是否已经变得过时。
微软发布三款AI模型:MAI-Image-2图像生成模型支持1024x1024像素分辨率,速度比前代提升一倍;MAI-Transcribe-1语音转录模型速度提升2.5倍,25种语言错误率仅3.9%;MAI-Voice-1语音合成模型支持自定义声音。三款模型通过Microsoft Foundry服务提供,并已集成到Bing、PowerPoint等产品中,定价具有竞争优势。
微软发布三款自研机器学习模型的公开预览版,包括语音识别模型MAI-Transcribe-1、语音合成模型MAI-Voice-1和文本生成图像模型MAI-Image-2。这些模型已在Copilot、Bing等产品中应用,现通过Azure AI Foundry平台向开发者开放。此举使微软从OpenAI投资者转变为直接竞争对手,为企业客服、会议字幕、媒体存档等场景提供解决方案。
加州初创公司Kintsugi历经七年开发语音抑郁症检测AI,但未能及时获得FDA批准而关闭。该公司将大部分技术开源,其AI可通过分析语音模式检测心理健康问题。虽然技术在同行评议研究中表现良好,但FDA的审批流程耗时过长,公司资金耗尽。开源技术引发滥用担忧,但创始人认为技术被低估使用的风险更大。
亚马逊为其新一代AI助手Alexa+推出全新点餐体验,用户可通过对话方式在Uber Eats和Grubhub上订餐。该功能支持用户在单次对话中浏览菜单、询问问题、定制餐点并随时调整订单。用户需在Alexa应用中关联外卖账户,之前的订单将自动同步。目前该功能已向使用Echo Show 8及更大设备的Alexa+用户推出,未来将扩展至购物和旅行等领域。
企业AI公司Cohere推出首个语音模型Transcribe,这是一款专为转录设计的开源自动语音识别模型,可用于笔记记录和语音分析。该模型参数量仅20亿,适合消费级GPU自主部署,目前支持14种语言。在Hugging Face开放ASR排行榜上表现优异,平均词错率为5.42%。Cohere计划将其集成到企业智能体编排平台North中,并通过API免费提供服务。